1. 论文信息

论文标题:《SCRDet: Towards More Robust Detection for Small, Cluttered and Rotated Objects》

论文发表:ICCV2019
论文链接:https://openaccess.thecvf.com
论文代码:https://github.com/DetectionTeamUCAS

1
2
3
4
5
6
7
@inproceedings{yang2019scrdet,
title={Scrdet: Towards more robust detection for small, cluttered and rotated objects},
author={Yang, Xue and Yang, Jirui and Yan, Junchi and Zhang, Yue and Zhang, Tengfei and Guo, Zhi and Sun, Xian and Fu, Kun},
booktitle={Proceedings of the IEEE/CVF International Conference on Computer Vision},
pages={8232--8241},
year={2019}
}

2. 归纳总结

标签目的方法总结
#遥感 #注意力机制 #旋转目标检测解决了遥感目标角度边界问题IoU SmoothL1 Loss,多维注意力从遥感目标的难点出发

3. 问题背景

遥感目标检测的难点:

  • 小目标(small size)
  • 密集(dense distribution)
  • 方向任意(arbitrary direction)

4. 主要工作

针对上述问题进行改进:

  • 对于小目标:通过特征融合和anchor采样角度出发设计了一个特征融合结构。
  • 对于密集排列问题:设计了一个有监督的多维注意力网络(supervised pixel attention network and the channel attention network)以减少背景噪声的不利影响。
  • 对于任意方向问题:通过添加IoU常数因子设计了一种改进的平滑L1损失,该因子专门用于解决旋转边界框回归的边界问题。

5. 相关工作

目标检测经典模型:

  • 两阶段:Fast R-CNN,Faster R-CNN,R-FCN
  • 单阶段:YOLO,SSD

针对小目标:RP-Faster R-CNN

6. 模型方法

整个框架基于Faster R-CNN based R2CNN实现,模型结构如下图:

主要包含三个部分:

  • SF-Net
  • MDA-Net
  • Rotation-Branch

6.1 SF-Net


针对小目标检测,作者认为特征融合有效采样是关键。对于anchor-based来说,anchor的铺设方式直接影响正样本采样率。经典的anchor铺设方式和特征图的分辩率有关,也就是anchor铺设的步长(C2-C5上的anchor步长分别是4,8,16,32)。随着网络加加深,特征图分辨率下降,anchor的步长扩大,常常会导致小目标的采样丢失,如下图所示:

文章通过resize的方式选取了一个合适的特征图分别率,尽可能保证小目标都被采样到,再加上简单的特征融合保证丰富的语义信息和位置信息。在这里之所以不使用C2,是因为遥感目标检测会设置较多的尺度和比例,那么在C2这个特征图上面的anchor就变得太多了,而且在遥感数据集中最小的目标一般也都在10像素以上(特指DOTA1.0DOTA1.5则给出了像素10以下的标注)。

6.2 MAD-Net

由于遥感图像背景的复杂性,RPN产生的建议区域可能引入大量噪声信息,如下图所示:

过多的噪音可能会混淆物体信息,物体之间的界限将变得模糊,导致漏检并增加虚警。因此,有必要增强物体特征并削弱非物体特征。为了更有效地捕捉复杂背景下小物体的特征,文章设计了一种有监督的多维注意力网络(MDA-Net),如下图所示。具体来说,在基于像素的注意网络中,特征图F3通过具有不同大小卷积核进行卷积运算,学习得到双通道的显著图(参见上图d)。这个显著图显示了前景和背景的分数。选择显著图中的一个通道与F3相乘,得到新的信息特征图A3(参见上图c)。需要注意的是,Softmax函数之后的显着图的值在[0,1]之间。换句话说,它可以降低噪声并相对的增强对象信息。由于显著图是连续的,因此不会完全消除背景信息,这有利于保留某些上下文信息并提高鲁棒性。

其实这个模块现在也是被用的比较烂了,就是空间注意力加通道注意力的组合。但在实际的应用过程中,空间注意力在遥感检测真的是非常有用的;

6.3 IoU-Smooth L1 Loss

首先我们要先了解一下两种旋转边界框的两种常见的方式,下图来自这篇文章的作者yangxue:

SCRDet是采用的opencv 表示法。在当前常用的旋转检测框的角度定义下,由于存在旋转角度的边界问题,会产生不必要的损失,如下图所示:

最理想的角度回归路线是由蓝色框逆时针旋转到红色框,但由于角度的周期性,导致按照这个回归方式的损失非常大(参见上图右边的Example)。此时模型必须以更复杂的形式回归(例如蓝色框顺时针旋转,同时缩放w和h),增加了回归的难度。为了更好地解决这个问题,我们在传统的smooth L1 损失函数中引入了IoU常数因子。在边界情况下,新的损失函数近似等于0,消除了损失的突增。新的回归损失可分为两部分,smooth L1回归损失函数取单位向量确定梯度传播的方向,而IoU表示梯度的大小,这样loss函数就变得连续。此外,使用IoU优化回归任务与评估方法的度量标准保持一致,这比坐标回归更直接和有效。IoU-Smooth L1 loss公式如下:

可以看一下两种loss在边界情况下的效果对比:

导致这种原因的根本原因是角度的预测超出了所定义范围。其实解决这种问题的方法并不唯一,RRPNR-DFPN在论文的loss公式中就判断了是不是在定义范围内,通过加减$k\pi$来缓解这个问题,但这种做法明显不优美而且仍然存在问题,主要是较难判断超出预测范围几个角度周期。当然可以通过对角度部分的loss加一个周期性函数,比如tan、cos等三角函数来做,但是我在实际使用过程中常常出现不收敛的情况。对于边界问题,我其实还做了其他方法的研究,会在以后的文章中详细讨论。

7. 实验结果

消融实验:

对比实验:

8. 参考文献

旋转目标检测方法解读 (SCRDet, ICCV2019) - 知乎 (zhihu.com)