动机
基于DNN的姿态估计方法仍具有的问题
- 尺度不稳定性:大部分方法在某一个尺度上过拟合,使得某一个尺度的结果占据主导的地位,引起了尺度的不稳定,通常的方法是不断的前传各个尺度的图片进行测试,选取分数最高的结果。
- 缺乏结构先验。
方法
Multi-Scale Supervision Network
设计MSS-net来学习多尺度的深度特征,在MSS-net的每个反卷积层上执行多个分层监督,每个层对应于一定的尺度。
1x1卷积用来匹配特征图的维度,ground-truch关键点特征图下采样,匹配相关的关键点热图。
MSS-net定位关键点和 attention model很相似。
Multi-Scale Regression Network
MSR-net接在MSS-net后,用来全局优化多尺度关键点热图,提高估计的结构一致性。MSR-net将多比例尺的热图作为输入,并将它们与各自比例尺上的ground-truch关键点进行匹配。通过这种方式,回归网络可以有效地结合所有尺度的热图来细化估计的姿态。
Structure-Aware Loss
在网络中,有两个地方使用了结构感知损失:(1)在MSS-net堆栈之间,作为一种中间监督手段,在定位关键点时加强结构一致性;(2)在MSR-net中查找全局一致的位姿配置。
Keypoint Masking Training
数据中遮挡的情况较少,提出了一种数据增强方法,人工创建遮挡和添加多余图像。