1. 论文信息

论文标题:《Object Detection for Aerial Images With Feature Enhancement and Soft Label Assignment》

论文发表:2022 IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING
论文链接:https://ieeexplore.ieee.org/document/9780146

1
2
3
4
5
6
7
@article{yu2022object,
title={Object Detection for Aerial Images with Feature Enhancement and Soft Label Assignment},
author={Yu, Ying and Yang, Xi and Li, Jie and Gao, Xinbo},
journal={IEEE Transactions on Geoscience and Remote Sensing},
year={2022},
publisher={IEEE}
}
NameValue
标签#遥感 #特征增强 #标签分配 #旋转目标检测
数据集DOTA1.0;DOTA1.5;HRSC2016;UCAS-AOD;
目的解决遥感图像中旋转特征不对齐以及正负样本不平衡的问题
方法提出旋转特征精炼,类感知上下文聚合以及软标签分配策略

2. 问题背景

作者提到,航拍图像目标检测任务存在目标方向任意以及前景与背景极不平衡的问题。并且提到Anchor-Based方法受超参数影响较大。因此作者的工作主要基于Anchor-Free模型实现。

(1)目标方向任意
由于航拍图像的鸟瞰视角,目标具有任意方向的性质。因此,通过标准2D卷积的水平感受野所获得特征并不能准确描述旋转目标的特征。下图可见,水平感受野和OBB不能很好的对齐。

(2)正负样本
作者发现不同空间位置的正样本展现出不一致的检测能力。下图可见,在不同位置检测出的OBB在IoU和Cls Score得到的结果差距很大。

并且作者发现遥感图像中前景和背景不平衡问题极其突出,导致模型不能学到很强的(strong)、公正的(unbiased)特征。下图可见,遥感图像中的前后景不平衡,导致的FP。

3. 主要工作

为解决上诉问题,作者提出了FSDet,其包含:
(1)旋转特征精炼(oriented feature refinement,OFR),利用几何信息解决特征未对齐问题
(2)类感知上下文聚合(class-aware context aggregation,CCA),提高类内前景特征的分辨能力
(3)软标签分配(soft label assignment,SLA),解决训练过程中不同位置样本得到结果不一致问题

3.1 模型结构

FSDet基于FCOS构建,并加入了其所提出的OFR,CCA以及SLA模块。

  • Head之前和FCOS一致,使用了5层FPN,包括P3-P7;
  • 替换了centerness分支,改用IoU分支来预测IoU的值;
  • Baseline使用的label assignment是原始的FCOS的策略,即采样范围为Bounding Box;

目标框表示方法为$d=(l,t,r,b,\theta)$,如下图所示:

损失函数如下:

其中分类损失为focal loss,回归损失包括HBB损失(使用的GIoU loss)以及角度损失:

3.2 旋转特征精炼(OFR)

OFR:利用旋转目标框的空间几何信息,学习更有效的特征表示。
OFR包括辅助回归分支和框特征注意机制。

  • 辅助回归分支输出特征图每个位置的$(l,t,r,b,\theta)$,得到一个初始Box;
  • 基于此初始Box使用框特征注意机制来生成精炼特征图,以获取更准确的信息;如下图,作者表示了同一位置(红点)使用不同3×3卷积核所获取的特征(蓝点),例如:标准卷积会明显与GT Box不对齐,可形变卷积在没有显式监督信息的条件下不能保证特征点落在目标上。因此作者取该初始Box的9个点来辅助特征对齐。受启发于Transformer的多头注意力,其按照顺时针顺序取这9个点(位于中心点的第二象限的边为上边缘,以此边开始顺时针取点),令红点$f^q_i\in\mathbb{R}^{d_f}$为Query,蓝点$f^v_i\in\mathbb{R}^{9\times d_f}$为Value,输入到多头注意力模块中。输出为特征$f_i^{o}\in\mathbb{R}^{d_f}$的计算如下:

    3.3 类感知上下文聚合(CCA)

    CCA模块包括一个辅助分类分支和特征增强处理。
  • 辅助分类分支预测一个C维的向量表示初始类别得分。
  • 基于此初始类别得分,网络开始聚合类感知上下文信息来丰富特征图,用于最后的分类。

首先特征图F输入到辅助分类分支得到粗糙的分类结果$\hat{c}={p_{i,k}|k=1,…,C}$,然后输入到一个门函数(gating function)来抑制负样本和低质量正样本,如下图:


其中t是预设阈值,A是放大系数,默认20。然后得到新的分类结果$\hat{p} _ {i,k}$,使用它来聚合每一层上此类的特征:

之后使用 $v_{k}$ 表示获取了更多类内语义信息的特征。同时为了计算每个位置的上下文特征,挖掘分类和位置的联系,使用每个位置$i$的特征$f_{i}$和类别$c^{\ast}$以及聚合特征$v _ {cls}$,计算两者的相似性:

并且希望$f_{i}$和其他类的相似性低于$f_{i}$和$c^{\ast}$。在计算特征的相似性后,得到类感知上下文特征$z_i$。

并且作者验证了CCA模块的有效性:

3.4 软标签分配(SLA)

由于高质量样本能够产生比低质量样本更准确预测的结果,SLA对每个样本的损失分配了一个软权重,使模型更关注高质量样本点。样本的质量$Q_{i,n}$定义为:

其中$p_{i,c^{(n)}}$代表样本$i$属于第n个Box的类别的概率,$IoU(\hat{B} _ i,B_n)$代表预测OBB$\hat{B} _ i$和真值OBB$B_n$之间的IoU值。超参$\alpha\in[0,1]$用于控制分类和回归之间的权重。$x$表示坐标$(x,y)$,$G_{n}(x)$代表高斯分布:

其中$\mu$和$\sum$代表均值和高斯分布的协方差矩阵。

其中R代表旋转矩阵,$\Lambda$代表特征值的对角矩阵。特征值$\lambda_{1}$和$\lambda_{2}$分别是椭圆半轴的平方,将OBB内切椭圆外的位置的$G_{n}(x)$值设为0。高斯分布将高值分配给靠近物体中心的位置,而低值分配给远离中心的位置。

根据样本的质量$Q_{i,n}$,可得正样本权重:

负样本权重:

加权后的损失:

辅助分支的损失:

总损失:

4. 实验结果

(1)消融实验:

(2)不同层的正样本权重可视化:

(3)其他实验


(4)对比试验