本文共 2842 字,大约阅读时间需要 9 分钟。
标签分配策略对检测器的性能影响很大,现有研究都是在常规的通用目标检测上做,不适用于密集行人检测场景。
作者提出了一种简单有效的分配策略,称为损失感知的标签分配(LLA),以提高人群场景中行人检测的性能。LLA首先计算每个锚点与GT对之间的分类(cls)和回归(reg)损失。然后将联合损失定义为cls和reg损失的加权总和作为分配指标。最后,将某个GT具有K个最小联合损失的锚定为其正锚。未分配给任何GT盒的锚定为负锚。
在CrowdHuman和CityPersons上进行的实验表明,这种简单的标签分配策略可以在两个流行的一阶段检测器RetinaNet和FCOS上将MR分别提高9.53%和5.47%,证明了LLA的有效性。
针对密集拥挤场景下的检测任务,突破现有标签分配策略的限制,解决锚点\盒中心和对应的GT框不一致的情况。
针对遮挡问题的相关解决方案:
Recent works mainly utilized additional information or regularization term to relieve these two problems.
- Bi- box [37] and R2-NMS [8] alleviate the first issue by introducing visible body annotations as extra supervisions.
- For the second issue, [27] imposes a novel regression penalty term on the misplacing predictions to tackle it.
These methods try to amend the poor predictions from the detectors
If a person is heavily occluded, his/her geometric center may fall onto other’s body, which will lead to inconsistency between the features of sampled points and their corresponding GT boxes. These twisty samples interfere with the training of detectors are certainly one of the main reasons for the mis-classifying and misplacing issues in DPD(dense pedestrian detection)
- Constructing a bag of positive candidate anchors for each GT.
- Calculating a certain metric e.g. IoU [32], score function [9] or likelihood [35] for each GT’s candidate anchors.
- Applying statistical tools or hard thresholds on the calculated metric to define positive and negative anchors.
为了突破现有标签分配策略的限制,作者提出了一种非常简单但有效的标签分配策略,即损耗感知标签分配(Loss-aware label Assignment, LLA),用于密集行人检测。
与其他标签策略相比:
具体细节:
给定一幅输入图像M,设有J个锚点和I个标注(GT框),下面公式中,S表示M每个锚框的等分,B表示M中每个锚框的位置预测。所以S的大小是JxN,N是类别,B的大小是Jx4 Ccls和Creg的大小就是IxJ,表示的是每个框和每个锚点的损失 C是联合损失,λ是控制回归损失的(好像很多计算损失的时候,分类和回归损失的占比不是1:1) 引入了一个Ci,jinbox,加快收敛。 其实也是一种先验,如果锚点/框的中心不在GT内,那回归起来肯定要慢,所以损失就给大点,论文中是用的10² 最后的联合损失 然后选择损失值最小的K个,给它分配为正,没有被分配到的锚点,为负。提出的标签分配策略的可视化效果:
与baseline的实验对比结果:
MR表示每幅图像(FPPI)在[10−2,100]范围内的对数平均误报率。
使用联合损失的消融实验:
SOTA实验对比:
看了这篇对ATSS的分析,突然感觉ATSS确实不咋地了,标签分配这块感觉没啥可做了
文中有提到Autoassign,但是没有和Autoassign对比一下,不知道这两个谁会比较好点。
下面这句话,我觉得可以将这种思路应用到很多地方,去解决。
具有损失感知的标签分配基于以下观察结果:具有较低联合损失的anchor通常包含更丰富的语义信息,因此可以更好地表示其对应的GT框。
转载地址:http://yjxen.baihongyu.com/