Justlovesmile's BLOG

旋转目标检测 | Oriented RepPoints，基于点集表示的旋转目标检测模型

2023-02-13T07:24:42.000Z

1. 论文信息

论文标题：《Oriented RepPoints for Aerial Object Detection Wentong》

论文发表：CVPR2022
论文链接：http://openaccess.thecvf.com

@inproceedings{li2022oriented,
  title={Oriented reppoints for aerial object detection},
  author={Li, Wentong and Chen, Yijie and Hu, Kaixuan and Zhu, Jianke},
  booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
  pages={1829--1838},
  year={2022}
}

Name	Value
标签	#旋转目标检测 #标签分配
数据集	#DOTA #HRSC2016 #UCAS-AOD #DIOR-R
目的	设计面向航拍图像的旋转目标检测器
方法	基于RepPoint实现

2. 问题背景

作者提到航拍图像中目标具有非水平，任意方向，密集分布，背景复杂等困难，主流的方法大多将其视为简单的旋转目标检测问题。其中基于角度回归的方法最受欢迎，然而这种增加了角度预测的方法会面临损失的不连续性以及回归的不一致性问题。这是因为角度的有界周期性和旋转框的方向定义造成的。因此为了避免这种问题，一些方法重新定义了目标旋转框的表示方法。例如，基于点集表示的方法RepPoints可以捕获关键的语义特征。但是这种简单的转换函数只产生垂直-水平边界框，无法精确估计航拍图像中旋转物体的方位。同时RepPoint在忽略学到的点集的质量的同时只根据语义特征回归关键点集，会导致旋转的、密集分布的和复杂背景下的目标精度较差。

3. 主要工作

针对上述问题，作者提出Oriented RepPoints方法，其引入自适应点表示不同的方向，形状和姿势。同时该方法不仅可以精确定位任意方向目标，还可以捕获目标的底层几何结构。

文章贡献点如下：

提出了一个高效的航拍目标检测器Oriented RepPoint
提出了一个质量评估和样本选择机制用于自适应学习点集
在四个具有挑战的数据集上实验并展现出不错的性能

3.1 模型结构

与传统直接回归方向的方法不同，Oriented RepPoint利用自适应点集来细致地表征目标，甚至能够表征目标的几何结构。为了这个目的，Oriented RepPoint引入了可微分转换函数，其可以使点集自适应地移动到合适的位置。为了在没有直接点对点监督的情况下有效地学习高质量的自适应点，提出了一种在训练阶段选择高质量的方向点的质量度量策略。

3.2 自适应方位点集学习

为了将点集表示转换成旋转框表示，Oriented RepPoint引入了转换函数。在文章中，作者测试了三种转换函数，分别是：

MinAreaRect：点集的最小外接矩形构成边界框
NearestGTCorner：距离真值顶点最近的四个点构成边界框
ConvexHull：通过Jarvis March算法，从点集中取能包含所有点的最大凸四边形作为边界框

其中MinAreaRect不可微分，其他两个可微分，因此作者在推理时使用MinAreaRect，在训练时从NearestGTCorner和ConvexHull中任选一个。

Oriented RepPoint包含两个阶段，第一个阶段根据特征点生成自适应点集，第二个阶段为精炼阶段，对点集进行优化。损失函数如下：
$$L=L_{cls}+\lambda_1L_{s1}+\lambda_2L_{s2}$$
其中$\lambda_1,\lambda_2$是平衡权重，$L_{cls}$是分类损失：
$$L_{cls}=\frac{1}{N_{cls}}\sum\limits_iF_{cls}(R_i^{cls}(\theta),b_j^{cls})$$
其中$R_{i}^{cls}(\theta)$代表预测类别置信度，$b_j^{cls}$是真实类别，$F_{cls}$是focal loss。
$L_{s1},L_{s2}$分别代表第一阶段和第二阶段的空间定位损失，对于每一阶段定位损失计算为：
$$L_s=L_{loc}+L_{s.c.}$$
其中$L_{loc},L_{s.c.}$分别代表基于转换后边界框的定位损失（localization loss based on converted oriented boxes）和空间限制损失(spatial constraint loss)。其中
$$L_{loc}=\frac{1}{N_{loc}}\sum\limits_i[b_j^{cls}\geq1]F_{loc}(OB_i^{loc}(\theta),b_j^{cls})$$
其中$F_{loc}$代表GIoU损失，$N_{loc}$代表全部正样本点数。
$$L_{s.c.}=\frac{1}{N_a}\frac{1}{N_o}\sum\limits_{i=1}\sum\limits_{j=1}\rho_{ij}$$
其中$N_a,N_o$分别代表对每个目标分配的正样本点数以及在真值框外的点数。
$$\rho=\begin{equation}
\begin{cases}
||p_o-p_c|| , & \text{$p_{o}$ is outside GT} \
0 , & \text{otherwise}
\end{cases}
\end{equation}
$$
其中$p_o$代表GT外的点，$p_c$代表GT的中心点

3.3 APAA

首先，APAA定义了一个质量评估值Q，该值从四个方法来度量学到的自适应点集的质量。
$$Q=Q_{cls}+\mu_1Q_{loc}+\mu_2Q_{ori}+\mu_3Q_{poc}$$
其中$Q_{cls},Q_{loc},Q_{ori},Q_{poc}$分别代表分类置信度（classification confidence），空间位置距离（spatial location distance），Chamfer距离（Chamfer distance）以及特征多样性（point-wise feature diversity）。Chamfe距离计算如下：
$$CD(R^v,R^g)=\frac{1}{2n}\sum_{i=1}^nmin_{j}||(x_i^v,y_j^v)-(x_i^g,y_j^g)||2+\frac{1}{2n}\sum{j=1}^nmin_{i}||(x_i^v,y_j^v)-(x_i^g,y_j^g)||2$$
特征多样性计算如下：
$$Q{poc}=1-\frac{1}{N_p}\sum_{k}cos=1-\frac{1}{N_p}\sum_k\frac{e^\star_{i,k}\cdot{e^\star_i}}{||e^\star_{i,k}||\times||e^\star_i||}$$
之后针对每个目标，利用Q值，选择前k个样本作为正样本。

4. 实验结果

标签分配 | SASM，形状自适应的样本选择策略

2023-02-12T07:08:42.000Z

1. 论文信息

论文标题：《Shape-Adaptive Selection and Measurement for Oriented Object Detection》

论文发表：AAAI 2022
论文链接：https://ojs.aaai.org/index.php/AAAI/article/view/19975
论文代码：https://github.com/houliping/SASM

@inproceedings{hou2022shape,
  title={Shape-adaptive selection and measurement for oriented object detection},
  author={Hou, Liping and Lu, Ke and Xue, Jian and Li, Yuqiu},
  booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
  volume={36},
  number={1},
  pages={923--932},
  year={2022}
}

Name	Value
标签	#标签分配 #旋转目标检测
数据集	#DOTA #HRSC2016 #UCAS-AOD #ICDAR2015
目的	解决旋转目标检测中样本选择没有考虑目标形状信息、没有区分不同质量正样本的问题
方法	提出shape-adaptive selection以及shape-adaptive measurement

2. 问题背景

作者提到旋转目标检测仍然面临挑战，其中最主要的挑战来自目标的形状（如长宽比）。在通用目标检测任务中，样本选择（sample selection，也叫标签分配，label assignment）对于性能提升具有重要作用。然而现有的样本选择策略存在以下不足：

忽视了目标的形状信息
没有对选择的正样本的做潜在的区分
大多数方法只能用于anchor-free或者anchor-based，不能同时适用

3. 主要工作

针对上述问题，作者提出了shape-adaptive selection（SA-S）和shape-adaptive measurement（SA-M）策略。

SA-S：根据目标形状信息和特征分布动态地选择样本
SA-M：度量定位能力，针对所选正样本增加质量信息

3.1 模型结构

3.2 Motivation

作者做了一个实验，分析不同正负样本IoU划分阈值对不同长宽比类别性能的影响，可以发现当长宽比变大时，IoU阈值越小越好，这可以说明传统的固定IoU阈值的划分方式并不是最优的。

3.3 Shape-Adaptive Selection

根据ATSS，目标真值和预测值的IoU均值和方法可以用于计算动态的IoU阈值，因此对于第i个真值框，IoU阈值可以计算为:
$$\tau_i^{IoU}=f(y_i)\times(\mu+\sigma)$$

其中:
$$\mu = \frac{1}{J}\sum\limits^{J} _ {j=1} I _ {i,j}$$

而
$$\sigma=\sqrt{\frac{1}{J}\sum _ {j=1}^J(I _ {i,j}-\mu)^2}$$

其中J是候选样本的数量，$I_{i,j}$是第i个真值框和第j个预测框之间的IoU值，$y_{i}$代表真值框的长宽比。根据上面的分析，权重应该随着纵横比的增加而减小，因此长宽比较大的目标被分配一个较低的IoU阈值，故而:
$$f(y_i)=e^{-\frac{y_i}{\omega}}$$

其中ω是一个权重参数，默认为4。当数据集包含大量大长宽比目标时，较大的ω通常可以获得更好的性能。这样，当IoU大于等于$\tau_i^{IoU}$时，认为其是正样本。

3.4 Shape-Adaptive Measurement

作者认为与位于物体内部的点相比，位于物体边界附近的点包含更多关于杂波背景，甚至附近物体的信息。因此，位于物体内部的点，特别是位于物体中心周围的点，比位于物体边界附近的点更能代表物体的特征。因此如果用所有正样本都有同样的权重会导致一些高质量正样本被远离物体中心的低质量样本点抑制，且每个样本点的质量与物体的形状密切相关，而不仅仅与每个点到物体中心的距离有关。

因此作者提出了一种基于归一化形状距离的Shape-Adaptive Measurement策略。其具体做法如下：
针对每一个真值框$(x,y,w,h,\theta)$，其分别代表中心点坐标，宽度，高度和角度。归一化形状距离计算如下：
$$
\Delta d _ {ij}=
\begin{equation}
\begin{array}{lr}
\sqrt{\frac{(x _ i-x _ j)^2}{w _ i}+\frac{(y _ i-y _ j)^2}{h _ i}}, & 0\leqslant\theta _ i\leqslant\frac{\pi}{2} \\
\sqrt{\frac{(x _ i-x _ j)^2}{h _ i}+\frac{(y _ i-y _ j)^2}{w _ i}}, & otherwise
\end{array}
\end{equation}
$$
正样本的质量计算为$\bar{Q} _ {ij}=e^{-\Delta{d _ {ij}}}$.

3.5 损失函数

作者认为较大偏差的孤立点会极大地影响凸包(convex hull，其由预测点集计算得到)的质量，并对精确定位产生不利影响，因此提出了边界中心损失（Boundary-Center Loss），其从点集中选取最左点、最右点、最上点和最下点，用点集中所有点的x坐标和y坐标的平均值来计算平均中心点：
$$L^{bc}=\sum\limits _ {i=1}^{5}L _ {smooth}(p _ i,g _ i)$$

因此总损失为：
$$L=\lambda _ 1L^c+\lambda _ 2L^1+\lambda _ 3L^2$$

其中$L^c,L^1,L^2$分别代表分类损失，初始检测损失，精炼检测损失。$\lambda_1,\lambda_2,\lambda_3$是权重系数，根据经验设为1.0，0.375和1.0. 其中分类损失计算为：
$$L _ i^c=\frac{1}{N^+}\frac{1}{\sum _ {p _ j\in{P^+}}\bar{Q} _ {ij}}\sum\limits _ {ij}\bar{Q} _ {ij}$$

其中$j,N^+,P^+$分别代表序号，总数和预测值。$L^{cls}$代表focal loss。
初始检测损失为：
$$L^1 _ i=\frac{1}{N^+}\frac{1}{\sum _ {p _ j\in{P^+}}\bar{Q} _ {ij}}\sum\limits _ {ij}\bar{Q} _ {ij}L _ {ij}^{reg}+L^{bc} _ {ij}$$

其中$L^{reg}=1-GIoU$代表GIoU Loss。
精炼阶段检测损失为：
$$L^2 _ i=\frac{1}{N^+}\frac{1}{\sum _ {p _ j\in{P^+}}\bar{Q} _ {ij}}\sum\limits _ {ij}\bar{Q} _ {ij}L _ {ij}^{reg}$$

4. 实验结果

标签分配 | GGHL，面向旋转目标检测的标签分配策略

2023-01-10T07:24:42.000Z

1. 论文信息

论文标题：《A General Gaussian Heatmap Label Assignment for Arbitrary-Oriented Object Detection》

论文发表：2022 IEEE TRANSACTIONS ON IMAGE PROCESSING
论文链接：https://ieeexplore.ieee.org/document/9709203

@article{huang2022general,
  title={A general gaussian heatmap label assignment for arbitrary-oriented object detection},
  author={Huang, Zhanchao and Li, Wei and Xia, Xiang-Gen and Tao, Ran},
  journal={IEEE Transactions on Image Processing},
  volume={31},
  pages={1895--1910},
  year={2022},
  publisher={IEEE}
}

Name	Value
标签	#遥感 #标签分配 #旋转目标检测
数据集	#DOTA #DOTAv2 #SKU10-R #SSDD
目的	解决旋转目标检测任务中，采样策略没有考虑目标的形状和方向特性的问题。
方法	提出了GGHL，其包含OLA,ORC以及JOL

2. 问题背景

作者提到近年来，大多数做旋转目标检测的方法都是设计复杂的网络结构以使得提取的特征分布接近GT的分布。然而改进模型结构不是提升性能的唯一解决途径。下图可见，一个完整的检测流程包括：数据；标签分配（正负样本划分）；模型结构；目标函数（损失）。

对于CNN-Based检测器而言，如何提升标签分配也很重要，不同的策略将会通过影响生成的样本空间来直接影响模型的性能。因此，要想提升检测性能，一个方法是使用复杂的CNN结构（复杂的近似估计函数），另一个方法是设计标签分配策略从而构建更好的能够反映目标特性的样本空间。

目前一些工作采用的标签分配策略如下：

（1）Anchor-Based Label Assignment
SCRDet，LO-Det，DAL，CenterMap，DCL以及Oriented R-CNN等使用的基于Anchor的标签分配策略。（计算IoU，通过和阈值比较来判断）这种方法会导致正负样本误分。

（2）Dense-Points Assignment
FCOS，IENet，AOPG等使用更宽松的采样策略，会导致样本空间中混入负样本。

（3）Key-Point Assignment
CenterNet，BBAVector以及O2DNet等使用更严格的采样策略，导致正负样本严重不平衡。

因此一个上述标签分配策略都没有考虑目标的旋转和形状特性，故而存在很多不足。此外，即便得到了更好的训练样本空间，还需要一个合适的目标函数来引导模型学到更高质量的特征。而目前，主流的目标函数都是独立优化分类和回归分支。因此其可能导致精准定位的预测框只有很低的分类得分，或者高得分的目标定位不准。因此，PISA，Free-Anchor，以及AutoAssign等方法将不同子任务联合训练来实现更理想的性能。

3. 主要工作

针对上述问题，作者提出了通用高斯热力图标签分配策略（GGHL），其主要包括三个部分：

一个目标自适应的采样策略（OLA），基于2D旋转高斯热力图，使得采样策略更能反映目标的尺寸和方向特性。
一个旋转边界框表示组件（ORC），基于正样本点到OBB顶点的距离构建OBB的表示方法。此外，还使用了一个目标自适应加权调整机制（OWAM），用于自适应调整不同位置的高斯中心权重以加权不同位置的损失。
一个带有面积归一化和动态加权的联合优化损失（JOL），用于精炼正负样本间未对齐的优化目标，并可以平衡模型对于不同位置不同大小的不同类别的目标的学习能力。

3.1 模型结构

下图为GGHL的结构框架。

3.2 目标自适应采样策略（OLA）

作者提到，之前的标签分配（Label Assignment，LA）存在样本误匹配的问题，并且存在大量超参数。如GWD使用2D高斯来计算损失，其LA仍基于Anchor实现。CenterNet，BBAvector，DRN等使用标准高斯分布（圆形）不能反映目标的形状和方向特性，并且其只使用高斯峰值点作为正样本加剧了正负样本不平衡，并且使用高分辨率特征图加大了计算复杂性。因此作者提出的OLA采用旋转椭圆高斯区域来采样。

（1）与标准高斯分布不同，OLA使用整个高斯区域作为正样本采样区域，再根据高斯密度函数对不同位置加权。高斯概率密度函数如下：

其中$X=[x,y]^T\sim N(\mu,C)$，$\mu\in R^2$代表平均向量，$C\in R^{2\times2}$为非负半定实矩阵，代表两个变量的协方差矩阵。实对称矩阵$C$正交对角分解为：

其中Q为实对称矩阵，$\Lambda$代表由降序特征值组成的对角矩阵。

高斯概率密度函数变换为：

如果$f(x,y)>0$，该位置定义为正样本，且其值代表该位置的权重。

（2）对于重叠问题，如果一个位置包含在不同的高斯区域内，则将其分配给$f(x,y)$最大的那个高斯区域。

（3）空间和尺度范围。对于空间范围，设高斯峰值的边界框为C-BBox，此时其他位置的边界框与C-BBox的IoU大于阈值$T_{IoU}$则视为正位置（positive location）。这些正位置构成了原始高斯候选区域的一个子集(表现为一个较小的椭圆，与原始高斯椭圆共心)，其半轴长度为：

其中$r_i$代表原始高斯椭圆的半轴长度。

而对于尺度范围，假设不同特征层的下采样率为$stride_m=2^{m+3},m=1,2,3$，同时为了保证在空间尺度上正样本的数量，定义$max_i(r_i^c)/stride_m\geq 1$，即$max_i(2r_i)\geq \frac{2\times stride_m}{1-T_{IoU}}$。定义OBB的四条边长为$d_j,j=1,2,3,4$，则有$max_j(d_j)=max_i(2r_i)\geq \frac{2\times stride_m}{1-T_{IoU}}$。定义一个超参数$\tau=3$，得到两个阈值：

此时，当$max_j(d_j)\in (1,range_1)$时，目标分配给$stride_1$。当$max_j(d_j)\in(range_1,range_2]$时，目标分配给$stride_2$。当$max_j(d_j)\in(range_2,\sqrt{2}len^{img}]$时，目标分配给$stride_3$。

3.3 旋转边界框表示组件（ORC）

作者提到，现有的OBB表示方法有两类，一类是基于角度的，如CenterMap，另一类是基于点的，如Gliding Vertex。ORC如下图，使用$l_{x,y,m}=[l_1,l_2,l_3,l_4]$以及$s_{x,y,m}=[s_1,s_2,s_3,s_4]$来表示一个位于$(x,y) _ {m}$的点所表示的OBB。其中与Gliding Vertex一样，使用$ar_{x,y,m}\in[0,1]$表示HBB和OBB的面积比例，因此ORC相当于使用一个9维的向量表示OBB：$obb_{x,y,m}=[l_{x,y,m},s_{x,y,m},ar_{x,y,m}]$。

除此之外，并不是每一个凸四边形都能被ORC表示，还需要讨论顶点不在HBB上的情况以及ORC中顶点的隐式排序。

此外，直接使用高斯分布来加权并不适合部分目标，如港口等等。因此需要设计一种自适应的加权调整策略，如AutoAssign以及IQDet等等。因此借鉴此思想，作者提出了OWAM。

3.4 联合优化损失（JOL）

包括：

联合概率密度函数
面积归一化和损失重加权机制
用于实现整个联合优化函数的极大似然估计

4. 实验结果

（1）消融实验

（2）可视化结果

（3）对比实验

旋转目标检测 | FSDet，解决旋转特征不对齐与正负样本不均衡

2022-10-10T11:32:42.000Z

1. 论文信息

论文标题：《Object Detection for Aerial Images With Feature Enhancement and Soft Label Assignment》

论文发表：2022 IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING
论文链接：https://ieeexplore.ieee.org/document/9780146

@article{yu2022object,
  title={Object Detection for Aerial Images with Feature Enhancement and Soft Label Assignment},
  author={Yu, Ying and Yang, Xi and Li, Jie and Gao, Xinbo},
  journal={IEEE Transactions on Geoscience and Remote Sensing},
  year={2022},
  publisher={IEEE}
}

Name	Value
标签	#遥感 #特征增强 #标签分配 #旋转目标检测
数据集	DOTA1.0；DOTA1.5；HRSC2016；UCAS-AOD;
目的	解决遥感图像中旋转特征不对齐以及正负样本不平衡的问题
方法	提出旋转特征精炼，类感知上下文聚合以及软标签分配策略

2. 问题背景

作者提到，航拍图像目标检测任务存在目标方向任意以及前景与背景极不平衡的问题。并且提到Anchor-Based方法受超参数影响较大。因此作者的工作主要基于Anchor-Free模型实现。

（1）目标方向任意
由于航拍图像的鸟瞰视角，目标具有任意方向的性质。因此，通过标准2D卷积的水平感受野所获得特征并不能准确描述旋转目标的特征。下图可见，水平感受野和OBB不能很好的对齐。

（2）正负样本
作者发现不同空间位置的正样本展现出不一致的检测能力。下图可见，在不同位置检测出的OBB在IoU和Cls Score得到的结果差距很大。

并且作者发现遥感图像中前景和背景不平衡问题极其突出，导致模型不能学到很强的（strong）、公正的（unbiased）特征。下图可见，遥感图像中的前后景不平衡，导致的FP。

3. 主要工作

为解决上诉问题，作者提出了FSDet，其包含：
（1）旋转特征精炼（oriented feature refinement，OFR），利用几何信息解决特征未对齐问题
（2）类感知上下文聚合（class-aware context aggregation，CCA），提高类内前景特征的分辨能力
（3）软标签分配（soft label assignment，SLA），解决训练过程中不同位置样本得到结果不一致问题

3.1 模型结构

FSDet基于FCOS构建，并加入了其所提出的OFR，CCA以及SLA模块。

Head之前和FCOS一致，使用了5层FPN，包括P3-P7；
替换了centerness分支，改用IoU分支来预测IoU的值；
Baseline使用的label assignment是原始的FCOS的策略，即采样范围为Bounding Box;

目标框表示方法为$d=(l,t,r,b,\theta)$，如下图所示：

损失函数如下:

其中分类损失为focal loss，回归损失包括HBB损失（使用的GIoU loss）以及角度损失：

3.2 旋转特征精炼（OFR）

OFR：利用旋转目标框的空间几何信息，学习更有效的特征表示。
OFR包括辅助回归分支和框特征注意机制。

辅助回归分支输出特征图每个位置的$(l,t,r,b,\theta)$，得到一个初始Box；
基于此初始Box使用框特征注意机制来生成精炼特征图，以获取更准确的信息；如下图，作者表示了同一位置（红点）使用不同3×3卷积核所获取的特征（蓝点），例如：标准卷积会明显与GT Box不对齐，可形变卷积在没有显式监督信息的条件下不能保证特征点落在目标上。因此作者取该初始Box的9个点来辅助特征对齐。受启发于Transformer的多头注意力，其按照顺时针顺序取这9个点（位于中心点的第二象限的边为上边缘，以此边开始顺时针取点），令红点$f^q_i\in\mathbb{R}^{d_f}$为Query，蓝点$f^v_i\in\mathbb{R}^{9\times d_f}$为Value，输入到多头注意力模块中。输出为特征$f_i^{o}\in\mathbb{R}^{d_f}$的计算如下：

3.3 类感知上下文聚合（CCA）
CCA模块包括一个辅助分类分支和特征增强处理。
辅助分类分支预测一个C维的向量表示初始类别得分。
基于此初始类别得分，网络开始聚合类感知上下文信息来丰富特征图，用于最后的分类。

首先特征图F输入到辅助分类分支得到粗糙的分类结果$\hat{c}={p_{i,k}|k=1,…,C}$，然后输入到一个门函数（gating function）来抑制负样本和低质量正样本，如下图：

其中t是预设阈值，A是放大系数，默认20。然后得到新的分类结果$\hat{p} _ {i,k}$，使用它来聚合每一层上此类的特征：

之后使用 $v_{k}$ 表示获取了更多类内语义信息的特征。同时为了计算每个位置的上下文特征，挖掘分类和位置的联系，使用每个位置$i$的特征$f_{i}$和类别$c^{\ast}$以及聚合特征$v _ {cls}$，计算两者的相似性：

并且希望$f_{i}$和其他类的相似性低于$f_{i}$和$c^{\ast}$。在计算特征的相似性后，得到类感知上下文特征$z_i$。

并且作者验证了CCA模块的有效性：

3.4 软标签分配（SLA）

由于高质量样本能够产生比低质量样本更准确预测的结果，SLA对每个样本的损失分配了一个软权重，使模型更关注高质量样本点。样本的质量$Q_{i,n}$定义为：

其中$p_{i,c^{(n)}}$代表样本$i$属于第n个Box的类别的概率，$IoU(\hat{B} _ i,B_n)$代表预测OBB$\hat{B} _ i$和真值OBB$B_n$之间的IoU值。超参$\alpha\in[0,1]$用于控制分类和回归之间的权重。$x$表示坐标$(x,y)$,$G_{n}(x)$代表高斯分布：

其中$\mu$和$\sum$代表均值和高斯分布的协方差矩阵。

其中R代表旋转矩阵，$\Lambda$代表特征值的对角矩阵。特征值$\lambda_{1}$和$\lambda_{2}$分别是椭圆半轴的平方，将OBB内切椭圆外的位置的$G_{n}(x)$值设为0。高斯分布将高值分配给靠近物体中心的位置，而低值分配给远离中心的位置。

根据样本的质量$Q_{i,n}$，可得正样本权重：

负样本权重：

加权后的损失：

辅助分支的损失：

总损失：

4. 实验结果

（1）消融实验：

（2）不同层的正样本权重可视化：

（3）其他实验

（4）对比试验

PLOG | 国庆随手拍，北京动物园以及奥体公园

2022-10-06T12:40:41.000Z

长安街、故宫附近

本打算9月30日晚上去天安门看看，结果去太晚了不让进，只能在附近转转…

[{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.9/20221006202507.jpg","alt":"中南海"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.9/202210062025071.jpg","alt":"故宫一角"}]

北京动物园

不知道是因为动物园太老了，还是天气太冷了，好多动物都没看见，比如长颈鹿…

[{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.9/202210062025072.jpg","alt":"牛"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.9/202210062025073.jpg","alt":"海洋馆"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.9/202210062025074.jpg","alt":"有点像波妞"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.9/202210062025075.jpg","alt":"白鲸"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.9/202210062025076.jpg","alt":"🐟"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.9/202210062025077.jpg","alt":"海归"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.9/202210062025078.jpg","alt":"企鹅"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.9/202210062025079.jpg","alt":"长鼻子鱼"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.9/2022100620250710.jpg","alt":"水母"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.9/2022100620250711.jpg","alt":"水母"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.9/2022100620250712.jpg","alt":"魔术表演"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.9/2022100620250713.jpg","alt":"表演"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.9/2022100620250714.jpg","alt":"表演"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.9/2022100620250715.jpg","alt":"表演"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.9/2022100620250716.jpg","alt":"表演"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.9/2022100620250717.jpg","alt":"大象"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.9/2022100620250718.jpg","alt":"河马"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.9/2022100620250719.jpg","alt":"狐狸"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.9/2022100620250720.jpg","alt":"猴"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.9/2022100620250721.jpg","alt":"熊猫"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.9/2022100620250722.jpg","alt":"熊猫"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.9/2022100620250723.jpg","alt":"北极熊"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.9/2022100620250724.jpg","alt":"羊驼"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.9/2022100620250725.jpg","alt":"树懒"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.9/2022100620250726.jpg","alt":"角马？"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.9/2022100620250727.jpg","alt":"斑马"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.9/2022100620250728.jpg","alt":"鹿"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.9/2022100620250729.jpg","alt":"蛇"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.9/2022100620250730.jpg","alt":"蛇"}]

奥林匹克公园

[{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.9/2022100620250731.jpg","alt":"鸟巢"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.9/2022100620250733.jpg","alt":"鸟巢"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.9/2022100620250735.jpg","alt":"鸟巢"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.9/2022100620250732.jpg","alt":"水立方"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.9/2022100620250734.jpg","alt":"鸟巢"}]

PLOG | 北京实习近况，逛了逛故宫以及颐和园

2022-09-28T15:40:41.000Z

从七月初开始被导师派到北京研究所实习，上班之余逛了逛北京的几个著名景点，比如说颐和园，天安门，故宫，北海公园等等，随手拍了拍照，设备是：iPhone 12以及Sony a6000.

颐和园

去的那天下着小雨，烟雨朦胧…

[{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.8/20220814000001.jpg","alt":"黑天鹅"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.8/20220814000002.jpg","alt":"雾气"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.8/20220814000003.jpg","alt":"十七孔桥"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.8/20220814000004.jpg","alt":"花"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.8/20220814000005.jpg","alt":"荷花"}]

天安门

去故宫那天正好赶上了天安门开音乐喷泉，录了视频，不过没拍照…

故宫

护城河里的锦鲤，见者好运…，以及集福门…

[{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.8/20220820000001.jpg","alt":"故宫护城河"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.8/20220820000002.jpg","alt":"故宫以及北海公园的白塔"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.8/20220820000003.jpg","alt":"午门"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.8/20220820000005.jpg","alt":"城门"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.8/20220820000006.jpg","alt":"螭首"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.8/20220820000007.jpg","alt":"集福门"}]

北海公园

把白塔拍出了小清新的感觉…

[{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.8/20220820000008.jpg","alt":"墙"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.8/20220820000009.jpg","alt":"白塔"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.8/20220820000010.jpg","alt":"鸭子"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.8/20220820000011.jpg","alt":"白塔远景"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.8/20220820000012.jpg","alt":"荷花"}]

北京近郊 - 阳台山

位于北京六环边上，周末踏青，强身健体…

[{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.8/20220904000001.jpg","alt":"山路"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.8/20220904000002.jpg","alt":"牵牛花"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.8/20220904000003.jpg","alt":"祈愿"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.8/20220904000004.jpg","alt":"铁轨"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.8/20220904000005.jpg","alt":"蝴蝶"},{"url":"https://npm.elemecdn.com/justlovesmile-post@1.0.8/20220904000006.jpg","alt":"警示牌"}]

旋转目标检测 | SCRDet，适用于旋转、密集、小目标的检测器

2022-07-04T07:21:48.000Z

1. 论文信息

论文标题：《SCRDet: Towards More Robust Detection for Small, Cluttered and Rotated Objects》

论文发表：ICCV2019
论文链接：https://openaccess.thecvf.com
论文代码：https://github.com/DetectionTeamUCAS

@inproceedings{yang2019scrdet,
  title={Scrdet: Towards more robust detection for small, cluttered and rotated objects},
  author={Yang, Xue and Yang, Jirui and Yan, Junchi and Zhang, Yue and Zhang, Tengfei and Guo, Zhi and Sun, Xian and Fu, Kun},
  booktitle={Proceedings of the IEEE/CVF International Conference on Computer Vision},
  pages={8232--8241},
  year={2019}
}

2. 归纳总结

标签	目的	方法	总结
#遥感 #注意力机制 #旋转目标检测	解决了遥感目标角度边界问题	IoU SmoothL1 Loss，多维注意力	从遥感目标的难点出发

3. 问题背景

遥感目标检测的难点：

小目标（small size）
密集（dense distribution）
方向任意（arbitrary direction）

4. 主要工作

针对上述问题进行改进：

对于小目标：通过特征融合和anchor采样角度出发设计了一个特征融合结构。
对于密集排列问题：设计了一个有监督的多维注意力网络（supervised pixel attention network and the channel attention network）以减少背景噪声的不利影响。
对于任意方向问题：通过添加IoU常数因子设计了一种改进的平滑L1损失，该因子专门用于解决旋转边界框回归的边界问题。

5. 相关工作

目标检测经典模型：

两阶段：Fast R-CNN，Faster R-CNN，R-FCN
单阶段：YOLO，SSD

针对小目标：RP-Faster R-CNN

6. 模型方法

整个框架基于Faster R-CNN based R2CNN实现，模型结构如下图：

主要包含三个部分：

SF-Net
MDA-Net
Rotation-Branch

6.1 SF-Net

针对小目标检测，作者认为特征融合和有效采样是关键。对于anchor-based来说，anchor的铺设方式直接影响正样本采样率。经典的anchor铺设方式和特征图的分辩率有关，也就是anchor铺设的步长（C2-C5上的anchor步长分别是4,8,16,32）。随着网络加加深，特征图分辨率下降，anchor的步长扩大，常常会导致小目标的采样丢失，如下图所示：

文章通过resize的方式选取了一个合适的特征图分别率，尽可能保证小目标都被采样到，再加上简单的特征融合保证丰富的语义信息和位置信息。在这里之所以不使用C2，是因为遥感目标检测会设置较多的尺度和比例，那么在C2这个特征图上面的anchor就变得太多了，而且在遥感数据集中最小的目标一般也都在10像素以上（特指DOTA1.0，DOTA1.5则给出了像素10以下的标注）。

6.2 MAD-Net

由于遥感图像背景的复杂性，RPN产生的建议区域可能引入大量噪声信息，如下图所示:

过多的噪音可能会混淆物体信息，物体之间的界限将变得模糊，导致漏检并增加虚警。因此，有必要增强物体特征并削弱非物体特征。为了更有效地捕捉复杂背景下小物体的特征，文章设计了一种有监督的多维注意力网络（MDA-Net），如下图所示。具体来说，在基于像素的注意网络中，特征图F3通过具有不同大小卷积核进行卷积运算，学习得到双通道的显著图（参见上图d）。这个显著图显示了前景和背景的分数。选择显著图中的一个通道与F3相乘，得到新的信息特征图A3（参见上图c）。需要注意的是，Softmax函数之后的显着图的值在[0,1]之间。换句话说，它可以降低噪声并相对的增强对象信息。由于显著图是连续的，因此不会完全消除背景信息，这有利于保留某些上下文信息并提高鲁棒性。

其实这个模块现在也是被用的比较烂了，就是空间注意力加通道注意力的组合。但在实际的应用过程中，空间注意力在遥感检测真的是非常有用的；

6.3 IoU-Smooth L1 Loss

首先我们要先了解一下两种旋转边界框的两种常见的方式，下图来自这篇文章的作者yangxue：

SCRDet是采用的opencv 表示法。在当前常用的旋转检测框的角度定义下，由于存在旋转角度的边界问题，会产生不必要的损失，如下图所示：

最理想的角度回归路线是由蓝色框逆时针旋转到红色框，但由于角度的周期性，导致按照这个回归方式的损失非常大（参见上图右边的Example）。此时模型必须以更复杂的形式回归（例如蓝色框顺时针旋转，同时缩放w和h），增加了回归的难度。为了更好地解决这个问题，我们在传统的smooth L1 损失函数中引入了IoU常数因子。在边界情况下，新的损失函数近似等于0，消除了损失的突增。新的回归损失可分为两部分，smooth L1回归损失函数取单位向量确定梯度传播的方向，而IoU表示梯度的大小，这样loss函数就变得连续。此外，使用IoU优化回归任务与评估方法的度量标准保持一致，这比坐标回归更直接和有效。IoU-Smooth L1 loss公式如下：

可以看一下两种loss在边界情况下的效果对比：

导致这种原因的根本原因是角度的预测超出了所定义范围。其实解决这种问题的方法并不唯一，RRPN和R-DFPN在论文的loss公式中就判断了是不是在定义范围内，通过加减$k\pi$来缓解这个问题，但这种做法明显不优美而且仍然存在问题，主要是较难判断超出预测范围几个角度周期。当然可以通过对角度部分的loss加一个周期性函数，比如tan、cos等三角函数来做，但是我在实际使用过程中常常出现不收敛的情况。对于边界问题，我其实还做了其他方法的研究，会在以后的文章中详细讨论。

7. 实验结果

消融实验：

对比实验：

8. 参考文献

旋转目标检测方法解读（SCRDet, ICCV2019） - 知乎 (zhihu.com)

Python小工具 | 如何自动下载、压缩并批量替换文章中的外链图片

2022-07-01T02:52:43.000Z

由于前段时间JsdelivrCDN加速的崩盘，博主存在Github上的图片全部访问失败，文章阅读体验极差，于是2022年以后的文章全部采用npm做图床，在此之前的文章由于数量过多并没有替换。再加上之前一直忙着研一阶段的期末考，懒得动博客。幸好这段时间有空，于是写了个python小工具来替换博客中外链图片，具体流程如下：

首先，遍历hexo\source\_posts\文件夹中的全部文章，把里面含有https://cdn.jsdelivr.net/gh的图片全部下载下来，并替换链接为npm的CDN链接。
其次，对下载下来的图片做简单的压缩。
最后，把压缩后的图片上传npm。

总体流程非常简单，下面是具体实现。

1. 下载并替换图片外链

import os
import os.path as osp
import shutil as sh
import  re
from tqdm.auto import tqdm
import requests

def makedir(root):
    if not osp.exists(root):
        os.mkdir(root)  

def save_img(root,img_url):
    path=root+img_url.split('/')[-1]
    try:
        if not osp.exists(path):
            s = requests.session()
            s.keep_alive = False # 关闭多余连接
            r = s.get(img_url) # 你需要的网址
            #r=requests.get(img_url)
            with open(path,'wb') as f:
                f.write(r.content)
                f.close()
        else:
            print(path+"文件已存在！")
            return 0
    except Exception as e:
        print(img_url+", 爬取失败！")
        return 1
    print(img_url+"已下载")
    return 0

def findimg(line,ori_pre):
    try:
        img = re.findall(f"({ori_pre}.*?(\.jfif|\.svg|\.webp|\.gif|\.jpeg|\.jpg|\.png|\.PNG|\.JPEG|\.JPG))",line)[0][0]
        name = img.split('/')[-1]
    except Exception as e:
        print("已自动忽略：",line)
        img,name = None,None
    return img,name

def changeurl(ori_root,save_root,down_root,ori_pre,new_pre):
    assert ori_pre[-1]=='/' and new_pre[-1]=="/"
    if osp.isdir(ori_root):
        files = os.listdir(ori_root)
    else:
        file = osp.basename(ori_root)
        ori_root = ori_root.split(file)[0]
        files = [file]
    makedir(save_root)
    makedir(down_root)
    for file in tqdm(files):
        print("Starting... ",file)
        with open(ori_root+file,'r',encoding = 'utf-8') as f:
            content = f.readlines()
        with open(save_root+file,'w',encoding='utf-8') as f:
            for line in content:
                if ori_pre in line:
                    img,name = findimg(line,ori_pre)
                    if img!=None:
                        change = new_pre + name
                        print(line,"==>",line.replace(img,change))
                        code = save_img(down_root,img)
                        if code == 0:
                            line = line.replace(img,change)
                f.write(line)


def main():
    ori_root = './hexo/source/_posts/'
    save_root = './markdown/'
    down_root = './download/'
    ori_pre = 'https://cdn.jsdelivr.net/gh/'
    new_pre = 'https://unpkg.com/justlovesmile-post@1.0.3/'
    changeurl(ori_root,save_root,down_root,ori_pre,new_pre)
    
if __name__ == "__main__":
    main()

2. 压缩图片

由第一步已经下载好图片了，这一步需要对图片进行简单的压缩，这里我采用最简单的图片缩放，通过缩小图片来压缩(有损)，需要无损压缩的可以用软件或者其他方法（百度、CSDN）。

from PIL import Image
from glob import glob
import os
from tqdm import tqdm
import shutil
import sys
from itertools import chain
 
from multiprocessing import Pool
 
# image_dir = "image_dir"
template_dir = 'template'
output_dir = 'output'
error_dir = 'error'
 
 
def clean_dir(dir_name):
    if os.path.exists(dir_name):
        shutil.rmtree(dir_name)
        os.makedirs(dir_name)
    else:
        os.makedirs(dir_name)
 
 
# image_file_list = glob(f"{image_dir}/*")
# image_file_list
 
 
def imagesize(filepath):
    """
    获得文件的磁盘大小
    :param filepath:
    :return:
    """
    return os.path.getsize(filepath) / 1024
 
 
def compress_image(image_path, target_size=500):
    raw_image = Image.open(image_path)
    temp_image_name = image_path.split(os.sep)[-1]
    template_image = os.path.join(template_dir, temp_image_name)
    output_image = os.path.join(output_dir, temp_image_name)
    error_image = os.path.join(error_dir, temp_image_name)
 
    target_size = target_size  # kb
 
    try:
 
        if imagesize(image_path) < target_size:
            shutil.copyfile(image_path, output_image)
        else:
            width, height = raw_image.size
            raw_image.resize((int(width * 0.9), int(height * 0.9)), Image.ANTIALIAS).save(template_image)
            while imagesize(template_image) > target_size:
                template_iamge2 = Image.open(template_image)
                width_2, height_2 = template_iamge2.size
                template_iamge2.resize((int(width_2 * 0.9), int(height_2 * 0.9)), Image.ANTIALIAS).save(template_image)
 
            shutil.copyfile(template_image, output_image)
    except Exception as e:
        shutil.copyfile(image_path, error_image)
        print(f'文件保存失败: {image_path}')
        # print(e)
 
 
if __name__ == '__main__':
    # 批量创建文件夹
    [clean_dir(i) for i in [template_dir, output_dir, error_dir]]
 
    image_dir = input('dir path:')
    target_size = int(input('target size (kb):'))
 
    image_file_list = list(chain(*[glob(os.path.join(image_dir, i)) for i in ['*.png', '*.jpg', '*.jpeg']]))
 
    #for temp_image_path in tqdm(image_file_list):
    #     compress_image(temp_image_path)
 
    print(f'\n\n文件保存父目录: {os.getcwd()}\n'
          f'输出文件位置:{os.path.join(os.getcwd(), output_dir)}\n\n')
 
    # parallel
    P = Pool(processes=10)
    pbar = tqdm(total=len(image_file_list))
 
    res_temp = [P.apply_async(func=compress_image, args=(i,target_size), callback=lambda _: pbar.update(1)) for i in
                image_file_list]
 
    _ = [res.get() for res in res_temp]

3. 上传npm

到这一步就很简单了，把之前压缩好的图片放在一个文件夹里，如：

- mj-img\
    - 1.jpg
    - 2.png
      ...
    - xxx.jpeg

之前用过npm的，可以直接在文件夹里打开bash，输入npm init与npm publish.

没有使用过npm的，可以参考Akilar的npm图床使用技巧.

旋转目标检测 | IENet，单阶段Anchor-Free旋转目标检测模型

2022-06-30T02:35:40.000Z

1. 论文信息

论文标题：《IENet: Interactive Embranchment Network Based One-Stage Anchor Free Detector for Orientational Aerial Object Detection》

论文发表：arxiv 2019
论文链接：https://arxiv.org/pdf/1912.00969

@article{lin2019ienet,
  title={IENet: Interacting embranchment one stage anchor free detector for orientation aerial object detection},
  author={Lin, Youtian and Feng, Pengming and Guan, Jian and Wang, Wenwu and Chambers, Jonathon},
  journal={arXiv preprint arXiv:1912.00969},
  year={2019}
}

2. 归纳总结

Name	Value
标签	#遥感 #目标检测
数据集	DOTA,HRSC2016
目的	两阶段方法计算量大，单阶段方法性能不足
方法	基于自注意力的互动分支

3. 问题背景

作者提到，遥感图像的目标检测任务的难点在于：

和自然图像相比，物体形状相似且可见特征稀少
目标具有不同的旋转角度
具有更多的小目标和密集目标

而目前最好的性能都是两阶段算法实现的，但是两阶段算法通常在第一阶段定位，在第二阶段分类，因此计算量是非常大的，尤其是对旋转目标检测而言，因为Anchor匹配（涉及IoU计算）和RoI特征提取的计算量大。

4. 主要工作

针对上诉问题，作者提出了IENet（interactive embranchment network），其是一个单阶段的Anchor-Free旋转目标检测器，其包含如下贡献点：

一个新的geometric transformation（几何变换），用于更好地表示旋转目标框
一个基于自注意力机制的分支交互模块（a branch interactive module with a self-attention mechanism）
一个针对旋转框检测改进的IoU Loss

4.1 模型结构

（1） Baseline模型结构(FCOS-O)

在FCOS的基础上增加了一个独立的角度回归分支（Orientation Regression）

（2） IENet

由于独立的角度分支不能很好的利用位置等信息，因此检测性能下降，基于此IENet提出了基于自注意力机制的分支交互模块即IE（Interactive Embranchment） Module，用于利用分类和位置回归信息。

4.2 旋转框几何变换

IENet使用HBB+几何变换来表征OBB，如下图所示：

IENet使用HBB加h,w来表示一个OBB，其中GT OBB是一个8维的向量$[x_1,y_1,x_2,y_2,x_3,y_3,x_4,y_4]$，HBB可由$[x_{min},y_{min},x_{max},y_{max}]$表示，h和w计算如下：
$$w=x_{max}-x_2$$
$$h=y_{max}-y_1$$
基于上述几何变化，可将OBB回归问题转换成HBB回归和方向回归的问题，其中HBB回归和FCOS的一致，为Box的偏移量$R_b=[l,t,r,b]$，方向回归为$R_o=[w,h]$.

4.3 IE Module

IE模块结构图：

在获得了分类和位置回归的特征图$F^m$后，使用1x1的卷积层和softmax层来构建自注意力模块：

首先利用三个1x1的卷积层$f(F^m),g(F^m),h(F^m)$将特征映射到三个特征空间
将$f(\cdot)$和$g(\cdot)$和并通过softmax层组成注意力图$\gamma= softmax(f(F^m)^Tg(F^m))$，因此特征图之间的关系为$\gamma_{q,p}= \frac{exp(\delta_{pq})}{\sum_{p=1}^{N}exp(\delta_{pq})}$，其中$q,p\in{1,…,N}$为注意力图的行号和列号，$\delta$代表$f(F^m)^Tg(F^m)$输出的NxN的矩阵
然后，注意图可以用来表示输入特征之间的关系，并对$h(\cdot)$的起作用，得到$\theta=(\theta_1,\theta_2,…,\theta_1,…,\theta_N)$，且$\theta_q=\sum_{p=1}^N\gamma_{q,p}h(f_p^m)$
为了保留原始特征信息，最后输出的特征为$\mathbb{Y}=\gamma\theta+F^m$

4.4 损失函数

总损失为：
$$L = \frac{1}{N_{pos}}L_{cls}+\frac{\lambda}{N_pos}L_{reg}+\frac{\omega}{N_{pos}}L_{ori}$$
其中分类损失为Focal Loss损失

位置回归损失为centerness损失加smoothL1

角度回归损失为smoothL1损失

5. 实验结果

DOTA_v1

HRSC2016

同时IENet在推理和训练时的速度上也有优势：

消融实验：

特征可视化：

目标检测 | ATSS，正负样本的选择决定检测性能

2022-06-29T06:47:13.000Z

1. 论文信息

论文标题：《Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection》

论文发表：CVPR2020
论文链接：https://openaccess.thecvf.com
论文代码：https://github.com/sfzhang15/ATSS

@inproceedings{zhang2020bridging,
  title={Bridging the gap between anchor-based and anchor-free detection via adaptive training sample selection},
  author={Zhang, Shifeng and Chi, Cheng and Yao, Yongqiang and Lei, Zhen and Li, Stan Z},
  booktitle={Proceedings of the IEEE/CVF conference on computer vision and pattern recognition},
  pages={9759--9768},
  year={2020}
}

2. 归纳总结

Name	Value
标签	#正负样本 #目标检测
数据集	`MSCOCO`
目的	通过实验发现`Anchor-Base`和`Anchor-Free`的区别在于正负样本定义，并提出了`ATSS`
方法	使用IoU的均值和标准差作为判断正负样本的自适应`IoU`阈值

3. 问题背景

论文指出单阶段Anchor-Based和Center-Based Anchor-Free检测算法的性能差异主要来自于正负样本的选择策略不同，基于此问题，作者提出了ATSS(Adaptive Training Sample Selection)方法，该方法能够自动根据真实框（GT）的相关统计特征自适应地选择合适的样本，进而提升模型性能…

4. 主要工作

指出Anchor-Free和Anchor-Based方法的根本差异主要来源于正负样本的选择;
提出ATSS( Adaptive Training Sample Selection)方法来根据对象的统计特征自动选择正负样本;
证明每个位置设定多个anchor是无用的操作;
不引入其它额外的开销，在MS COCO上达到SOTA;

4.1 `Anchor-Based`和`Anchor-Free`的区别分析

由于FCOS是基于point进行预测，故可以认为就是一个像素位置有一个anchor，为了公平对比，将RetinaNet的anchor也设置为1个(#A=1),将FCOS的训练策略移动到RetinaNet上面，可以发现性能依然是RetinaNet低于fcos 0.8mAP。排除这个因素后，现在两个算法的区别是：

1.正负样本定义；
2.回归分支中从point回归还是从anchor回归；从point回归就是指的每个点预测距离4条边的距离模式，而从anchor回归是指的RetinaNet那种基于anchor偏移量回归的模式。

但作者通过实验分析可以知道回归分支中从point回归还是从anchor回归对最终影响很小，反而是正负样本定义对结果影响最大。

4.2 ATSS

算法流程如下：

论文提出ATSS方法，该方法根据目标的相关统计特征自动进行正负样本的选择，具体逻辑如算法1所示。对于每个GT box g，首先在每个特征层找到中心点最近的k个候选anchor boxes(非预测结果)，计算候选box与GT间的IoU $U_g$，计算IoU的均值$m_g$和标准差$v_g$，得到IoU阈值$t_g=m_g+v_g$，最后选择阈值大于$t_g$的box作为最后的输出。如果anchor box对应多个GT，则选择IoU最大的GT。

均值$m_g$表示预设的anchor与GT的匹配程度，均值高则应当提高阈值来调整正样本，均值低则应当降低阈值来调整正样本。标准差$v_g$表示适合GT的FPN层数，标准差高则表示高质量的anchor box集中在一个层中，应将阈值加上标准差来过滤其他层的anchor box，低则表示多个层都适合该GT，将阈值加上标准差来选择合适的层的anchor box，均值和标准差结合作为IoU阈值能够很好地自动选择对应的特征层上合适的anchor box;

根据统计原理，大约16%的anchor box会落在$[m_g+v_g,1]$，尽管候选框的IoU不是标准正态分布，但统计下来每个GT大约有0.2×kL个正样本，与其大小和长宽比无关，而RetinaNet和FCOS则是偏向大目标有更多的正样本，导致训练不公平；其中ATSS仅有一个超参数k，并且实验表明ATSS的性能对k不敏感，参数k在区间$[7,17]$几乎是一样的，过大的设置会到导致过多的低质量候选anchor，而过小的设置则会导致过少的正样本，而且统计结果也不稳定。总体而言，参数k是相对鲁棒的，所以ATSS几乎是hyperparameter-free的。

将ATSS应用到RetinaNet和FCOS上测试效果：

将RetinaNet中的正负样本替换为ATSS，AP提升了2.9%，这样的性能提升几乎是没有任何额外消耗的
在FCOS上的应用主要用两种：lite版本采用ATSS的思想，从选取GT内的anchor point改为选取每层离GT最近的top-$k$个候选anchor point，提升了0.8%AP；full版本将FCOS的anchor point改为长宽为$8S$的anchor box来根据ATSS选择正负样本，但仍然使用原始的回归方法，提升了1.4%AP。两种方法找到的anchor point在空间位置上大致相同，但是在FPN层上的选择不太一样。从结果来看，自适应的选择方法比固定的方法更有效。

论文还补充测试了不同anchor数下的性能，并且其实验结果证明，在每个位置设定多个anchor box是无用的操作，关键在于选择合适的正样本；

5. 实验结果

6. 参考文献

ATSS : 目标检测的自适应正负anchor选择，很扎实的trick | CVPR 2020 - 知乎 (zhihu.com)

Hexo博客 | 如何为博客添加顶部轮播图和文章推荐卡片

2022-06-28T01:05:11.000Z

最近看了zhheo大佬的博客首页，发现大佬的布局还是那么的好看，于是果断COPY，再加上我一直想要在我的博客首页加一个大画幅的轮播图插件，于是又参考了Hassan的文章轮播图…经过一番折腾，效果如下：

1. 创建首页顶部模块

1.1 创建`hometop.pug`

在themes/butterfly/layout/includes路径下创建hometop.pug文件：

if is_home()
  #home_top
    include bbTimeList.pug
    .home_top_group
      #homeTopGroup.homeTopGroup
        #banner_group
          #banners
            include sticky.pug //轮播图
          .category_group
            .category_item
              a.category_button(href=<左下角标签1路径>,style="background:linear-gradient(to right,#364f6b,#3fc1c9)")
                span.category_button_text <标签1名称>
                i.fas.fa-laptop-code
            .category_item
              a.category_button(href=<左下角标签2路径>,style="background:linear-gradient(to right,#6639a6,#3490de)")
                span.category_button_text <标签2名称>
                i.fas.fa-lightbulb
            .category_item
              a.category_button(href=<左下角标签3路径>,style="background:linear-gradient(to right,#f65,#ffbf37)")
                span.category_button_text <标签3名称>
                i.fas.fa-book
        .top_post_group // 右侧文章推荐卡片
          if site.data.slider
            each i in site.data.slider
              .top_post_item
                .post_cover
                  a(href=url_for(i.link) title=i.title)
                    img.post_bg.entered.loaded(src=url_for(i.cover))
                    .post_cover_info
                      p.post_cover_text= i.description

                .post_info(onclick=`"window.open(`+url_for(i.link)+`,"_self")"`)
                  a.article-title(href=url_for(i.link) title=i.title)= i.title

其中第一行的is_home()是Hexo自带的辅助函数，用于判断是否为首页，但是其在justlovesmile.top/以及justlovesmile.top/page/2/等页面都返回True，因此如果你只想在首页的第一页显示该模块，可以使用is_current('/')。

1.2 添加`css`样式

在自己的css文件中添加：

:root{
    --mj-white: #fff;
    --mj-card-bg: #fff;
    --mj-theme: #425AEF;
    --mj-main: #425AEF;
    --mj-secondbg: #ededed;
    --mj-card-border: #e3e8f7;
    --style-border: 1px solid var(--mj-card-border);
    --style-hover-border: 1px solid var(--mj-theme);
}
/* home top */
#home_top {
    max-width: 1500px;
    width: 100%;
    margin-top: .5rem;
    padding: 0 15px;
    margin: 0 auto;
}
.home_top_group {
    border-radius: 12px;
    overflow: auto;
    width: 100%;
    margin-bottom: 0;
}
.homeTopGroup {
    display: flex;
    flex-direction: row;
    flex-wrap: nowrap;
    width: 100%;
    margin-top: 1rem;
    overflow: auto;
    overflow-x: score;
    border-radius: 12px;
}
.homeTopGroup::-webkit-scrollbar {
    display: none;
}
.homeTopGroup #banner_group {display: flex;}
div#banners {display: none;}
@media screen and (min-width: 1300px){
  .homeTopGroup #banner_group {
    width: calc(100% - 600px - 1.5rem);
    display: flex;
    flex-direction: column;
    justify-content: space-between;
  }
  div#banners {
    display: flex;
    width: 100%;
    height: 100%;
    background: var(--mj-main);
    margin-bottom: .5rem;
    margin-right: .5rem;
    border: var(--style-border);
    border-radius: 12px;
    overflow: hidden;
    position: relative;
  }
  div#banners:hover{
    border: var(--style-hover-border);
  }
  .homeTopGroup .category_group {
    flex-direction: row !important;
  }
  .homeTopGroup .category_item {
    width: calc(100% / 3 - .33rem);
    height: 100% !important;
    margin-right: .5rem;
  }
  .homeTopGroup .category_item:nth-child(3) {
    margin-right: 0;
    display: flex !important;
  }
  #banner-page {
    width: 100%;
    height: 100%;
  }
  .top_post_group {
    display: flex;
    flex-direction: row;
    flex-wrap: wrap;
    justify-content: flex-end;
    height: calc(328px + .5rem);
    align-content: space-between;
    width: calc(600px + 1.5rem);
  }
}

.homeTopGroup .category_group{
    display: flex;
    flex-direction: column;
    justify-content: space-between;
    min-width: 200px;
}
.homeTopGroup .category_item {
    overflow: hidden;
    transform: scale(1);
    transition: .3s;
    height: 48%;
    border-radius: 12px;
}
.homeTopGroup .category_item:nth-child(3) {
    display: none;
}
.homeTopGroup .category_item a.category_button {
    height: 100%;
    width: 100%;
    background: var(--mj-card-bg);
    border-radius: 12px;
    display: inline-block;
    text-align: left;
    line-height: 4em;
    font-weight: 700;
    font-size: .9rem;
    color: var(--mj-white);
    transition: all .4s cubic-bezier(.39,.575,.565,1);
    transform: scale(1);
    overflow: hidden;
    font-family: PingFang SC,Hiragino Sans GB,Microsoft YaHei;
}
.category_button_text {
    padding-left: 25px;
}
a.category_button i {
    font-size: 3rem;
    opacity: .3;
    position: absolute;
    right: 15px;
    top: 10%;
    transition: .3s;
    transform: rotate(-10deg);
    /*width: 100px;
    text-align: center;*/
}
a.category_button:hover i {
    opacity: .8;
    transition: .8s;
    transition-delay: .15s;
    transform: scale(1.1)
}
a.category_button:hover:after{
    width: 3rem;
    transition: .8s;
}
a.category_button:after {
    top: 40px;
    width: 1rem;
    left: 25px;
    height: 2px;
    background: var(--mj-white);
    content: "";
    border-radius: 1px;
    position: absolute;
    transition: .8s;
}
@media screen and (max-width: 768px){
  #home_top{
    padding: 0 5px;
  }
  .homeTopGroup .category_group {
    min-width: 130px!important;
  }
  .top_post_group .top_post_item{
    border-radius: 0;
  }
}
.top_post_group{
    display: flex;
    position: relative;
}
.top_post_group .top_post_item {
    display: flex;
    width: 200px;
    min-width: 200px;
    height: 164px;
    max-height: 164px;
    flex-direction: column;
    align-items: flex-start;
    margin-left: .5rem;
    background: var(--mj-card-bg);
    border-radius: 12px;
    overflow: hidden;
    border: var(--style-border);
}
.top_post_group .top_post_item:hover {border: var(--style-hover-border);}
.top_post_group .top_post_item .post_cover {
    width: 100%;
    height: 110px;
    position: relative;
}
.top_post_group .top_post_item .post_cover img {
    object-fit: cover;
    width: 100%;
    height: 110px;
    background: var(--mj-secondbg);
}
.top_post_group .top_post_item .post_cover .post_cover_info {
    position: absolute;
    top: 0;
    width: 101%;
    height: 100%;
    opacity: 0;
    background-color: rgba(0,0,0,0.7) !important;
    transition: all 0.3s ease;
    display: flex;
} 
.top_post_group .top_post_item:hover .post_cover .post_cover_info{
    opacity: 1;
}
.top_post_group .top_post_item .post_cover .post_cover_info .post_cover_text{
    color: #fff;
    padding: 12px 14px;
    font-size: 15px;
    font-weight: 400;
    margin: 20px 0;
    -webkit-line-clamp: 2;
    overflow: hidden;
    display: -webkit-box;
    -webkit-box-orient: vertical;
}
.top_post_group .top_post_item:hover .post_info,
.top_post_group .top_post_item:focus .post_info{
    /*background: var(--mj-theme);*/
    box-shadow: inset 0 -60px 0 0 var(--mj-theme);
}
.top_post_group .top_post_item .post_info a{
    color: var(--mj-fontcolor) !important;
    transition: 0;
}
.top_post_group .top_post_item:hover .post_info a{
    color: var(--mj-white) !important;
}
.top_post_group .top_post_item .post_info {
    padding: .2rem .5rem .3rem .5rem!important;
    transition: .3s;
    width: 100%;
    height: 100%;
}
.top_post_group .top_post_item .post_info .article-title {
    -webkit-line-clamp: 2;
    overflow: hidden;
    display: -webkit-box;
    -webkit-box-orient: vertical;
    line-height: 1.4;
    justify-content: center;
    align-items: flex-end;
    align-content: center;
    font-weight: 600;
    font-size: .8rem!important;
    padding: 0!important;
}

2. 创建顶部轮播图

2.1 创建`sticky.pug`

在themes/butterfly/layout/includes路径下创建sticky.pug文件：

link(rel='stylesheet' href='https://unpkg.com/swiper/swiper-bundle.min.css')
#sticky
  #stickyList.swiper-container
    #stickyWrapper.swiper-wrapper
      .swiper-slide(onclick=`window.open('/random/','_self')`)
        .grid-img
          iframe#banner-page(src="<这里放iframe地址>" frameborder="0" loading="eager") // 可以放iframe
        .grid-title
          span 随便逛逛
          i.fas.fa-arrow-right
      .swiper-slide(onclick=`window.open('/video/','_self')`)
        .grid-img
          img.cover.entered.loaded(alt='VLOG' src='https://npm.elemecdn.com/justlovesmile-photo/myvlog.gif') // 可以放GIF
        .grid-title
          span 看看VLOG
          i.fas.fa-arrow-right
      .swiper-slide(onclick=`window.open('/music/','_self')`)
        .grid-img
          img.cover.entered.loaded(alt='歌单' src='https://npm.elemecdn.com/justlovesmile-img/gitar.jpg') // 可以放图片
        .grid-title
          span 听听音乐
          i.fas.fa-arrow-right
    //- 分页器
    .swiper-pagination

.js-pjax
  script(src='https://unpkg.com/swiper/swiper-bundle.min.js')
  script(src='/js/sticky.js')
link(rel='stylesheet' href='/css/sticky.css')

2.2 创建`sticky.js`

在themes/butterfly/source/js路径下创建sticky.js文件：

var mySwiper = new Swiper('#stickyList', {
      direction: 'horizontal',
      speed: 600,
      loop: true,
      effect : 'fade',
      loopPreventsSlide: false,
      autoplay: {
        delay: 20000,
      },
      mousewheel: false,
      pagination: {
          el: ".swiper-pagination",
          dynamicBullets: true,
      },
    })

2.3 创建`sticky.css`

在themes/butterfly/source/css路径下创建sticky.css文件：

:root{
    --mj-white: #fff;
    --mj-card-bg: #fff;
    --mj-theme: #425AEF;
}
#sticky,
#stickyList,
#stickyWrapper{
  width: 100%;
  height: 100%;
}
.swiper-container#stickyList {
  overflow: hidden;
}
#stickyList .swiper-slide {
  background: var(--mj-card-bg);
  position: relative;
  border-radius: 12px;
  transition: 0.3s;
  width: 100%;
  height: 100%;
}
#stickyList .swiper-slide .grid-img {
  overflow: hidden;
  height: 16.2rem;
}
#stickyList .swiper-slide .grid-img img {
  transition: 0.3s;
  object-fit: cover;
  display: block;
  width: 100%;
  height: 100%;
}
#stickyList .swiper-slide:hover .grid-title{
  opacity: .8;
  cursor: pointer !important;
}
#stickyList .swiper-slide:hover .grid-img{
  filter: blur(5px);
}
#stickyList .swiper-slide:hover .grid-title span,
#stickyList .swiper-slide:hover .grid-title i{
  transform: translateX(0px);
  transition: .5s;
}
#stickyList .swiper-slide .grid-title span,
#stickyList .swiper-slide .grid-title i{
  transform: translateX(-100px);
  transition: .5s;
}
#stickyList .swiper-slide .grid-title {
  position: absolute;
  width: 100%;
  height: 100%;
  top: 0;
  left: 0;
  overflow: hidden;
  background: var(--mj-theme);
  color: var(--mj-white);
  padding-left: 1.5rem;
  display: flex;
  flex-direction: column;
  justify-content: center;
  opacity: 0;
  transition: .5s;
}
#stickyList .swiper-slide .grid-title span {
  font-size: 5rem;
  font-weight: 700;
  line-height: 5rem;
}
#stickyList .swiper-slide .grid-title i {
    font-size: 4rem;
    opacity: .6;
}
@media screen and (max-width: 768px) {
  #sticky {
    display: none;
  }
}

3. 创建文章推荐卡片

3.1 创建`slider.yml`

在hexo\source\_data\路径下创建slider.yml文件，最好准备6个推荐文章，例如：

#- cover: 封面图片链接
#  timeline: '2020-10-01' # 日期，需要用''包裹
#  link: 置顶文章链接，站内文章建议填相对链接
#  title: 置顶文章标题
#  description: 置顶文章描述
- cover: https://npm.elemecdn.com/justlovesmile-img/20200715201402.png
  timeline: '2020-07-15'
  link: /posts/c8972b63.html
  title: 必看 | Hexo博客搭建超级指南
  description: Hexo博客搭建全过程，环境部署，博客魔改等等...
- cover: https://npm.elemecdn.com/justlovesmile-img/090412-1557363852af44.jpg
  timeline: '2020-04-09'
  link: /posts/56163.html
  title: Hexo博客 | 博客中能用到的代码（一）
  description: 这篇文章介绍了如何使用font awesome图标字体库，使用动态图标，添加网页运行时间，全站变黑白，鼠标点击特效，网页标题的动态效果，网页樱花特效，鼠标触动音乐特效
- cover: https://npm.elemecdn.com/justlovesmile-img/095658-1562983018e455.jpg
  timeline: '2020-04-09'
  link: /posts/15391.html
  title: Hexo博客 | 博客中能用到的代码（二）
  description: 这篇文章介绍了如何添加旋转小人和每日诗句
- cover: https://npm.elemecdn.com/justlovesmile-img/20220331192754.png
  timeline: '2022-03-31'
  link: /posts/a806bebe.html
  title: 推荐 | 计算机专业，大学课程「笔记归档」
  description: 本文是博主本科期间的专业课程学习笔记的整理和归档，适合计算机专业的同学阅读。
- cover: https://npm.elemecdn.com/justlovesmile-img/20220318183107.png
  timeline: '2022-03-18'
  link: /posts/589ec011.html
  title: 深度学习 | Detectron2使用指南
  description: Detectron2是Facebook AI Research的检测和分割框架，其主要基于PyTorch实现，但具有更模块化设计，因此它是灵活且便于扩展的。
- cover: https://npm.elemecdn.com/justlovesmile-img/202109111517311.jpg
  timeline: '2021-09-11'
  link: /posts/865c56ba.html
  title: 目标检测 | 常用数据集标注格式及生成脚本
  description: 目标检测是计算机视觉任务中的一个重要研究方向，是计算机视觉的根本性问题之一，是其他诸多计算机视觉任务的基础以及前提。本文主要介绍了目标检测数据集的几种标注格式和转换代码。

3.2 `css`样式

见1.2中.top_post_group等样式类，不再赘述…

4. 补充：zhheo大佬首页人来人往特效

4.1 创建`people`页面

在hexo\source\路径下创建people文件夹，其中创建index.html:

---
layout: false
---

html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>MJ's People Pagetitle>
<meta name="viewport" content="width=device-width, initial-scale=1, minimum-scale=1.0, maximum-scale=1.0, minimal-ui" />
<link rel="stylesheet" href="/people/style.css">
head>
<body>
<canvas id="canvas" width="808" height="244">canvas>
<script src="https://lf26-cdn-tos.bytecdntp.com/cdn/expire-1-M/gsap/3.9.1/gsap.min.js">script>
<script src="/people/script.js">script>body>
html>

4.2 创建`css`样式

在hexo\source\people路径下，创建style.css:

body,
html{
height:100%;
background-color:#fff;
}
body{
margin:0;
}
#canvas{
width:100%;
height:100%;
}
body::-webkit-scrollbar{
display:none;
}

4.3 创建`js`文件

在hexo\source\people路径下，创建script.js:

"use strict";function _toConsumableArray(e){return _arrayWithoutHoles(e)||_iterableToArray(e)||_unsupportedIterableToArray(e)||_nonIterableSpread()}function _nonIterableSpread(){throw new TypeError("Invalid attempt to spread non-iterable instance.\nIn order to be iterable, non-array objects must have a [Symbol.iterator]() method.")}function _unsupportedIterableToArray(e,r){if(e){if("string"==typeof e)return _arrayLikeToArray(e,r);var t=Object.prototype.toString.call(e).slice(8,-1);return"Object"===t&&e.constructor&&(t=e.constructor.name),"Map"===t||"Set"===t?Array.from(e):"Arguments"===t||/^(?:Ui|I)nt(?:8|16|32)(?:Clamped)?Array$/.test(t)?_arrayLikeToArray(e,r):void 0}}function _iterableToArray(e){if("undefined"!=typeof Symbol&&null!=e[Symbol.iterator]||null!=e["@@iterator"])return Array.from(e)}function _arrayWithoutHoles(e){if(Array.isArray(e))return _arrayLikeToArray(e)}function _arrayLikeToArray(e,r){(null==r||r>e.length)&&(r=e.length);for(var t=0,a=new Array(r);treturn a}function _classCallCheck(e,r){if(!(e instanceof r))throw new TypeError("Cannot call a class as a function")}function _defineProperties(e,r){for(var t=0;tvar a=r[t];a.enumerable=a.enumerable||!1,a.configurable=!0,"value"in a&&(a.writable=!0),Object.defineProperty(e,a.key,a)}}function _createClass(e,r,t){return r&&_defineProperties(e.prototype,r),t&&_defineProperties(e,t),e}var config={src:"https://npm.elemecdn.com/guli-heo/others/open-peeps-sheet.png",rows:15,cols:7},randomRange=function(e,r){return e+Math.random()*(r-e)},randomIndex=function(e){return 0|randomRange(0,e.length)},removeFromArray=function(e,r){return e.splice(r,1)[0]},removeItemFromArray=function(e,r){return removeFromArray(e,e.indexOf(r))},removeRandomFromArray=function(e){return removeFromArray(e,randomIndex(e))},getRandomFromArray=function(e){return e[0|randomIndex(e)]},resetPeep=function(e){var r,t,a=e.stage,n=e.peep,o=.5<Math.random()?1:-1,i=100-250*gsap.parseEase("power2.in")(Math.random()),s=a.height-n.height+i;return 1==o?(r=-n.width,t=a.width,n.scaleX=1):(r=a.width+n.width,t=0,n.scaleX=-1),n.x=r,n.y=s,{startX:r,startY:n.anchorY=s,endX:t}},normalWalk=function(e){var r=e.peep,t=e.props,a=(t.startX,t.startY),n=t.endX,o=gsap.timeline();return o.timeScale(randomRange(.5,1.5)),o.to(r,{duration:10,x:n,ease:"none"},0),o.to(r,{duration:.25,repeat:40,yoyo:!0,y:a-10},0),o},walks=[normalWalk],Peep=function(){function a(e){var r=e.image,t=e.rect;_classCallCheck(this,a),this.image=r,this.setRect(t),this.x=0,this.y=0,this.anchorY=0,this.scaleX=1,this.walk=null}return _createClass(a,[{key:"setRect",value:function(e){this.rect=e,this.width=e[2],this.height=e[3],this.drawArgs=[this.image].concat(_toConsumableArray(e),[0,0,this.width,this.height])}},{key:"render",value:function(e){e.save(),e.translate(this.x,this.y),e.scale(this.scaleX,1),e.drawImage.apply(e,_toConsumableArray(this.drawArgs)),e.restore()}}]),a}(),img=document.createElement("img");img.onload=init,img.src=config.src;var canvas=document.querySelector("#canvas"),ctx=canvas.getContext("2d"),stage={width:0,height:0},allPeeps=[],availablePeeps=[],crowd=[];function init(){createPeeps(),resize(),gsap.ticker.add(render),window.addEventListener("resize",resize)}function createPeeps(){for(var e=config.rows,r=config.cols,t=e*r,a=img.naturalWidth/e,n=img.naturalHeight/r,o=0;onew Peep({image:img,rect:[o%e*a,(o/e|0)*n,a,n]}))}function resize(){stage.width=canvas.clientWidth,stage.height=canvas.clientHeight,canvas.width=stage.width*devicePixelRatio,canvas.height=stage.height*devicePixelRatio,crowd.forEach(function(e){e.walk.kill()}),crowd.length=0,availablePeeps.length=0,availablePeeps.push.apply(availablePeeps,allPeeps),initCrowd()}function initCrowd(){for(;availablePeeps.length;)addPeepToCrowd().walk.progress(Math.random())}function addPeepToCrowd(){var e=removeRandomFromArray(availablePeeps),r=getRandomFromArray(walks)({peep:e,props:resetPeep({peep:e,stage:stage})}).eventCallback("onComplete",function(){removePeepFromCrowd(e),addPeepToCrowd()});return e.walk=r,crowd.push(e),crowd.sort(function(e,r){return e.anchorY-r.anchorY}),e}function removePeepFromCrowd(e){removeItemFromArray(crowd,e),availablePeeps.push(e)}function render(){canvas.width=canvas.width,ctx.save(),ctx.scale(devicePixelRatio,devicePixelRatio),crowd.forEach(function(e){e.render(ctx)}),ctx.restore()}

5. 参考文章

张洪Heo - 分享设计与科技生活
 Butterfly主题美化魔改集锦 | Hassan’s Blog

Hexo博客 | 视频点播页面，如何在博客上优雅地展示B站等平台视频

2022-05-04T02:26:47.000Z

之前考虑到自己剪了一些vlog，但是直接用iframe嵌入的话页面会很长，而且点开这个页面会自动加载全部视频，感觉很奇怪，并且不能很好的展示，于是写了一个视频点播页面

1. 新建路径页面

首先使用命令新建一个页面：

1	hexo new page video

在index.md里面写入一下内容：

---
title: 我的视频
date: 2020-07-17 20:54:09
comment: true
top_img: false
showToc: true
aside: false
type: "video"
---

<script src="https://unpkg.com/jquery@latest/dist/jquery.min.js">script>
<script>
function selectVideo(id){
    var src=$("#video-item-"+id).attr("data-src");
    $("#video-select").html("+src+"' scrolling='no' border='0' frameborder='no' framespacing='0' allowfullscreen='true'> ");
    var iframe = document.getElementById("video-select")
    if(iframe.attachEvent){
      iframe.attachEvent("onreadystatechange", function() {
        if (iframe.readyState === "complete" || iframe.readyState == "loaded") {
          iframe.detachEvent("onreadystatechange", arguments.callee);
        if (document.getElementsByClassName('video-mirror').length>0) {
          console.log("1true")
          $(".video-mirror").attr("style","transform:scaleX(-1);")
          }
        }
      });
    }else{
      iframe.addEventListener("load", function() {
        this.removeEventListener("load", arguments.call, false);
      if (document.getElementsByClassName('video-mirror').length>0) {
        console.log("2true")
        $(".video-mirror").attr("style","transform:scaleX(-1);")
      }
      }, false);
    }
}
$(document).ready(selectVideo(0));
script>

2. 新建主题页面

在主题路径themes\butterfly-dev\layout\includes\page下新建video.pug：

//if top_img === false
//  h1.page-title= page.title
#video-select.video-select
hr
h3= 视频列表
.videos
  if site.data.video
    each i,index in site.data.video
      div(class="myvideo" onclick=`javascipt:selectVideo(`+index+`)`)
        div(id=`video-item-`+index class="video-item" data-src=url_for(i.link))
          a(href="#video-select")
            img.video-item-cover(src=url_for(i.cover))
        .video-desc
          .video-title
            a(href="#video-select")= i.title
          .video-info= i.description

style.
  .videos{
    display: grid;
    grid-template-columns: repeat(4, 1fr);
    grid-column-gap: 20px;
    grid-row-gap: 20px;
  }
  @media screen and (max-width: 1200px){
    .videos{
      display: grid;
      grid-template-columns: repeat(3, 1fr);
      grid-column-gap: 20px;
      grid-row-gap: 20px;
    }
  }
  @media screen and (max-width: 900px){
    .videos{
      display: grid;
      grid-template-columns: repeat(2, 1fr);
      grid-column-gap: 20px;
      grid-row-gap: 20px;
    }
  }
  @media screen and (max-width: 600px){
    .videos{
      display: grid;
      grid-template-columns: repeat(1, 1fr);
      grid-column-gap: 20px;
      grid-row-gap: 20px;
    }
  }
  .myvideo{
    position: relative;
    width: 100%;
    border: 1px solid var(--mj-card-border);
    border-radius: 12px;
  }
  .video-item{
    overflow: hidden;
    height: 160px;
    border-top-left-radius: 12px;
    border-top-right-radius: 12px;
  }
  .video-item img {
    position: relative;
    width: 100%;
    margin: 0 !important;
    height: 100%;
    transform: scale(1.0);
    transition: .3s;
    object-fit: cover;
  }
  .myvideo:hover .video-item img {
    transition: .3s;
    transform: scale(1.1);
  }
  .video-title{
    padding: 5px 10px;
    font-size: 18px;
    font-weight: bold;
  }
  .video-info{
    font-size: 14px;
    padding: 0 10px;
    color: var(--mj-secondtext);
  }
  .video-select{
    position:relative;
    width:100%;
    height:0;
    padding-bottom:75%;
  }
  .video-select iframe{
    position:absolute;
    width:100%;
    height:100%;
    left:0;
    top:0;
    border-radius: 12px;
  }
!= page.content

3. 注册video页面

在主题路径butterfly/layout/的page.pug文件中注册上述页面模板：

extends includes/layout.pug

block content
  #page
    if top_img === false
      h1.page-title= page.title

    case page.type
      when 'tags'
        include includes/page/tags.pug
      when 'link'
        include includes/page/flink.pug
      when 'categories'
        include includes/page/categories.pug
+     when 'video'
+       include includes/page/video.pug
      default
        include includes/page/default-page.pug

    if page.comments !== false && theme.comments && theme.comments.use
      - var commentsJsLoad = true
      !=partial('includes/third-party/comments/index', {}, {cache: true})

4. 获取B站等平台视频嵌入代码

在视频播放页面通常会有分享按钮，并且一般会提供链接和iframe嵌入两种分享方式，例如我的（顺便求一波关注）：

复制iframe代码，如下：

1	<iframe src="//player.bilibili.com/player.html?aid=937145035&bvid=BV18T4y1D7wj&cid=545915013&page=1" scrolling="no" border="0" frameborder="no" framespacing="0" allowfullscreen="true"> iframe>

5. 新建data文件

在hexo\source\_data路径下(没有就创建一个文件夹)新建一个数据文件video.yml，把刚才的iframe代码内容转换成：

- cover: https://npm.elemecdn.com/justlovesmile-img/33f7ad7c55b5df1e5bdb6a6ea3eb35b.jpg
  time: 2022/03/10
  link: //player.bilibili.com/player.html?aid=937145035&bvid=BV18T4y1D7wj&cid=545915013&page=1
  title: 雷神池，璃月雷神前来报道
  description: 【原神】20220310

6. 结语

至此，一个视频点播页面就做好了，该方法适用于一切提供iframe嵌入的视频平台，页面展示如下：

旋转目标检测 | R3Det，基于特征精炼的单阶段检测模型

2022-04-09T07:00:34.000Z

1. 论文信息

论文标题： R3det: Refined single-stage detector with feature refinement for rotating object

论文发表：AAAI 2021
论文链接：https://ojs.aaai.org/index.php/AAAI/article/view/16426/16233
论文代码：https://github.com/Thinklab-SJTU/R3Det_Tensorflow

@article{yang2019r3det,
  title={R3det: Refined single-stage detector with feature refinement for rotating object},
  author={Yang, Xue and Liu, Qingqing and Yan, Junchi and Li, Ang and Zhang, Zhiqiang and Yu, Gang},
  journal={arXiv preprint arXiv:1908.05612},
  volume={2},
  number={4},
  pages={2},
  year={2019},
  publisher={Aug}
}

2. 归纳总结

标签	目的	方法	总结
#遥感 #单阶段 #Anchor	针对单阶段精炼检测器特征未对齐的问题，提出了FRM模块	RRetinaNet Based,FRM,SkewIou	精炼

3. 问题背景

作者称对于旋转目标检测存在三个挑战：

大宽高比
密集排列
方向任意

4. 主要工作

针对上述问题，作者提出了R3Det，其主要工作如下：

progressive regression：作者发现旋转框在密集场景下的能有较好的目标检测精度，而水平框能达到更好的召回率，因此使用了这两种形式的框进行组合，具体做法是第一阶段检测水平框，从而提升检测速度，提高召回率，第二阶段也就是精炼阶段（refinement stage）检测旋转框，以适应密集目标的检测。
feature refinement module：针对现有的单阶段refined detector，作者发现他们存在特征没对齐的问题，因此设计了一个特征精炼模块，使用特征插值来获取精炼的位置信息并重建特征图实现特征对齐，并且该模块还可以减少精炼边界框的数量，提升检测速度。
approximate SkewIoU loss：为解决Skew IoU计算不可微的问题，设计了一种近似SkewIoU损失，以获得更精确的旋转估计。

4.1 模型结构

R3Det主要基于 RetinaNet 实现，结构如下：

4.2 边界框定义

对于边界框$(x,y,w,h,\theta)$，其中x，y代表中心点坐标，w，h代表宽和高，$\theta \in [-\frac{\pi}{2},0)$代表角度，边界框回归的值为：

其中$x,x_a,x’$分别代表gt，anchor以及预测值，其余同上。

损失函数为：

其中$v’$为预测的偏移量向量，v代表gt的偏移量向量。其中N表示Anchor的数目,超参数 $\lambda_1$， $\lambda_2$ 控制着这两个损失的平衡，并且默认值为1。$L_{cls}$ 和 $L_{reg}$ 分别是Focal Loss和smooth L1 Loss。

4.3 精炼检测

Skew IoU对于角度十分敏感，因此作者在第一阶段使用0.5为前景阈值，0.4为背景阈值，在精炼的第一阶段使用0.6为前景阈值，0.5为背景阈值，如果有多段精炼阶段，使用0.7以及0.6为阈值。总损失：
$$L_{total}=\sum_{i=1}^N\alpha_iL_i$$
其中$L_i$为第i个精炼阶段的损失，$\alpha_i$为平衡系数，默认为1.

4.4 特征精炼模块

许多精炼检测器仍然使用相同的特征图来执行多个分类和回归，而没有考虑边界框位置变化引起的特征未对齐。因此作者提出将当前精炼边界框(橙色矩形)的位置信息重新编码为对应的特征点(红色点)，从而以逐像素的方式重构整个特征图，实现特征对齐。整个过程如上图（c）所示。为了准确地获取精炼后的包围框对应的位置特征信息，采用了双线性特征插值方法，如上图（a）所示。特征插值可以表示为:

其中A代表图（a）中的区域，$F\in \mathbb{R}^{C\times 1\times 1}$代表特征图上点的特征向量。

算法流程：

5. 实验结果

记录 | 博客运行超过1000天啦，继续砥砺前行

2022-04-08T06:18:58.000Z

就在刚刚，我在整理阅读笔记、准备发到博客上的时候，突然瞟到博客右下角的运行时间，惊喜地发现博客已经运行超过1000天啦，心中突然有一种又开心又欣慰的情绪在弥漫…

从wordpress到hexo

时间过得真快呀，我还记得自己第一次建立博客那天，刚考完期末考试，回到寝室，室友说他发现了一个特别好看的个人网站，我看着那个网站，心中萌发出我也要拥有一个自己的博客的想法，于是在当天我搜索了很多建立个人网站的教程，最后因为自己课设用过python的flask框架并且写过静态的HTML，于是决定在阿里云上购买了一个轻量应用服务器（学生有优惠），然后自己写一个博客网页，因此当时的博客非常简单（并且非常丑）。

直到假期里我看见知乎上有人推荐wordpress，并且也是可以直接在阿里云的轻量应用服务器上直接部署的，因此我果断的开始了wordpress的踩坑之旅，中途先后使用了多个wordpress官网推荐的主题，一直没有找到自己喜欢的，后来还是在知乎上，看见了sakura主题，非常的漂亮，并且封面图也很好看，如下：

并且在部署的过程中，从作者的博客友链看到了很多大佬的博客，也是第一次知道了原来博客还有友链这种东西…

再到假期末尾，又是我的室友（还是他😂），他给我看了他的博客，虽然只有一个首页（就是Hexo默认的主题）我突然感觉好像也不错，而且他告诉我这个不用租服务器，我突然感觉自己好像打开了新世界的大门，原来还有Hexo这种静态博客生成器…

于是我又开始了Hexo的踩坑之旅，先后用过了yilia、Sakura-Hexo、Ayer、以及现在的Butterfly主题，他们都是非常优秀的主题，如下图：

除了主题外，自己还添加又卸载了很多插件（如live2d，我用的是下面这个👇），最后发现还是简单实用比较适合我。

域名:justlovesmile.top

从2019年9月6日开始，我的博客终于有了自己的域名，而为什么要买这个域名呢，主要是因为我的游戏id基本上都是这个，比如：Justlovesmile，Just微笑，Justlove微笑等等.

博客魔改

直到换到Butterfly主题，我突然发现他能满足我绝大部分的需求，不仅适配了黑暗模式，各个模块也写的非常简单明了，非常适合魔改，并且在不同博客的友链中找啊看啊，发现了很多非常棒非常好看的博客，还加入了Butterfly主题的QQ群（后来因为我基本上不聊天所以被踢了qwq），认识了很多大佬，也从他们的博客学到了很多东西，得到了很多帮助，如zhheo博主、小冰博主、Akilar博主等等，因此我的友链中专门开了一个模块保存（供奉）着他们博客。

在看了很多博客魔改和优化的文章以及自己一点一点修改之后，我的博客现在是这个样子的：

博客统计

从2019年7月10日至今，博客总共发布了文章85篇，标签57个，分类6个，详细见统计页面：

其中2019年24篇，2020年39篇，2021年8篇，2022年目前14篇：

博客共有友链51个，打赏2次。

博客共有评论355条，也随时欢迎大家能在留言板中留言。

结语

本文是纪念、也是总结，纪念这1000个日日夜夜在个人博客分享学习笔记或者主题美化的时光，总结我的博客这1000天的一些数据统计。希望在下一个1000天里我的博客能变得越来越好、越来越合我心意。

目标检测 | FPN，多尺度目标检测经典Backbone

2022-04-08T04:46:28.000Z

1. 论文信息

论文标题： Feature Pyramid Networks for Object Detection

论文发表：CVPR2017
论文链接：CVPR2017 open access

@inproceedings{lin2017feature,
  title={Feature pyramid networks for object detection},
  author={Lin, Tsung-Yi and Doll{\'a}r, Piotr and Girshick, Ross and He, Kaiming and Hariharan, Bharath and Belongie, Serge},
  booktitle={Proceedings of the IEEE conference on computer vision and pattern recognition},
  pages={2117--2125},
  year={2017}
}

2. 归纳总结

Name	Value
标签	#多尺度
目的	针对目标检测任务中，目标尺度变化的问题，设计了特征金字塔网络
方法	构建多层特征图之间的联系，合理利用高层语义信息和底层位置信息
总结	是目标检测模型的标配，较好地解决了多尺度检测问题

3. 问题背景

作者提到，在2017年以前，目标检测中的一个基本挑战就是目标检测模型在处理目标多尺度变化问题的不足，因为在当时很多网络都使用了利用单个高层特征，(比如说Faster R-CNN利用下采样四倍的卷积层——Conv4，进行后续的物体的分类和bounding box的回归)，但是这样做有一个明显的缺陷，即小物体本身具有的像素信息较少，在下采样的过程中极易被丢失，而之前的图像金字塔结构虽然也能解决多尺度问题，但计算量大，内存消耗大，因此作者提出了特征金字塔结构，能在增加极小的计算量的情况下，处理好物体检测中的多尺度变化问题。

4. 主要工作

针对上诉问题，提出了一个利用深度卷积神经网络固有的多尺度金字塔结构来以极小的计算量构建特征金字塔的网络结构，即FPN。

4.1 模型结构

作者对比了多种金字塔结构，其中：

图（a）所示的是经典的图像金字塔结构，其通过对不同尺度的图像提取特征，来构建特征金字塔，因此其需要对不同尺度图像分别提取特征，计算量大且消耗内存多；
图（b）所示的是2017年常见的利用最后一层（高层）特征图检测目标的模型结构，其对于多尺度目标的检测能力不足；
图（c）是一种利用卷积神经网络固有的多尺度特征图构建的多尺度检测模型（如SSD），但是其没有结合高层语义信息和底层位置信息，因此检测精度一般；
图（d）即FPN结构，是一种具有侧向连接（lateral connections）的自上而下的网络结构，用来构建不同尺寸的具有高级语义信息的特征图，并且很好的利用了不同层特征的信息。

下图是FPN的网络结构：

其主要包含两个部分：

自下而上的特征提取：即常规的前馈Backbone网络，以Faster R-CNN为例，假设选择ResNet每级最后一个Residual Block的输出，记为{C1,C2,C3,C4,C5}，那么FPN用2-5级参与预测，其中C2, C3, C4, C5表示conv2，conv3，conv4和conv5的输出层(最后一个残差block层)作为FPN的特征，分别对应于输入图片的下采样倍数为{4，8，16，32}。
自上而下的特征融合以及横向连接：即将高层的语义信息和本层的细节信息相融合。自上而下的过程通过上采样（Up-Sampling）实现，上采样的方法是最近邻插值法，如下图所示。具体过程为：C5层先经过1 x 1卷积，改变特征图的通道数(文章中设置d=256，与Faster R-CNN中RPN层的维数相同便于分类与回归)。然后通过上采样，再加上(特征图中每一个相同位置元素直接相加)C4经过1 x 1卷积后的特征图M4（固定通道256）。这个过程再做两次，分别得到C3对应的特征图M3（固定通道256）以及C2对应的特征图M2（固定通道256）。M层特征图再经过3 x 3卷积(减轻最近邻近插值带来的混叠影响，周围的数都相同)，得到最终的P2，P3，P4，P5层特征。

图片来自【论文笔记】FPN —— 特征金字塔 - 知乎 (zhihu.com)

4.2 代码

可参考Pytorch官方的代码https://github.com/pytorch/vision

5. 实验结果

6. 参考文献

【论文笔记】FPN —— 特征金字塔 - 知乎 (zhihu.com)

小样本学习 | ProtoNet，基于度量的Few-Shot分类网络

2022-04-02T04:20:34.000Z

1. 论文信息

论文标题：Prototypical Networks for Few-shot Learning

论文发表：Advances in neural information processing systems, 2017
论文链接：https://proceedings.neurips.cc/paper/6996-prototypical-networks-for-few-shot-learning

@article{snell2017prototypical,
  title={Prototypical networks for few-shot learning},
  author={Snell, Jake and Swersky, Kevin and Zemel, Richard},
  journal={Advances in neural information processing systems},
  volume={30},
  year={2017}
}

2. 归纳总结

标签	目的	方法	总结
#度量学习 #嵌入网络	解决小样本问题	学习一个低纬嵌入空间	将分类问题转换成度量问题

3. 主要工作

ProtoNet，即原型网络，其想法非常直接但有效，即对每张图像都先用神经网络得到一个特征表示，然后对支持集中每个类别的所有特征取一个平均，作为这个类别的类中心，最后比较查询集和各个类中心之间的距离，取最近的一个类别作为预测结果。

作者的思想是构建一个映射函数，可以将每一类映射到一个简单的原型特征点集中。因此作者使用神经网络学习了一个非线性映射，将输入映射到嵌入空间中，并且规定每一类的原型特征为每个嵌入空间的均值。之后就可以将分类任务看作是在嵌入空间中寻找距离最近的原型特征。

定义样本为S，类别为k，原型特征为$c_k=\frac{1}{S_k}\sum_{(x_i,y_i)\in{S_k}}f_{\phi}(x_i)$，衡量距离的函数为d，那么对于输入样本，其在嵌入空间的分布为$p_\phi(y=k|x)=\frac{\exp(-d(f_\phi(x),c_k))}{\sum_{k^\prime}\exp(-d(f_\phi(x),c_{k^{\prime}}))}$，学习的过程就是最小化负对数损失$J(\phi)=-\log{p_\phi(y=k|x)}$。

4. 实验结果

其实验结果如下：

博客相关 | 如何提取图片主题色并自动选择标题字体颜色

2022-03-28T04:37:51.000Z

今天在写博客的时候，做了一个封面图，然后hexo cl && hexo g && gulp && hexo s一键生成，点开后却发现这个标题的字体颜色亮瞎我的眼睛：

于是试了很多帖子，终于把它改好了：

提取主题色的js:https://github.com/briangonzalez/rgbaster.js

处理配色js如下：

if (document.getElementById('post-cover')) {
  const img = document.getElementById('post-cover').getAttribute('data-lazy-src')
  RGBaster.colors(img, {
      paletteSize: 30,
      exclude: ["rgb(255,255,255)", "rgb(0,0,0)", "rgb(254,254,254)"],
      success: function(t) {
        if (t.dominant != 'rgb()'){
          const c = t.dominant.match(/\d+/g);
          const Color = `rgba(${c[0]},${c[1]},${c[2]},0.8)`;
          let fontColor;
          //const grayLevel = c[0] * 0.299 + c[1] * 0.587 + c[2] * 0.114;
          const grayLevel = c[0] * 0.213 + c[1] * 0.715 + c[2] * 0.072;
          //if (grayLevel >= 190) {
          if (grayLevel >= 255/2) {
            // 若为浅色，把文字设置为黑色
            fontColor = '#000';
            metaColor = '#1C1C1C';
          } else {
            fontColor = '#fff';
            metaColor = '#eee';
          }
          document.styleSheets[0].addRule(":root", "--mj-main:" + Color + "!important")
          document.styleSheets[0].addRule(":root", "--mj-titlecolor:" + fontColor + "!important")
          document.styleSheets[0].addRule(":root", "--mj-metacolor:" + metaColor + "!important")
        } else {
          document.styleSheets[0].addRule(":root", "--mj-main: rgba(255,250,240,0.5) !important")
          document.styleSheets[0].addRule(":root", "--mj-titlecolor: #000 !important")
          document.styleSheets[0].addRule(":root", "--mj-metacolor: #1C1C1C !important")
        }
      },
      error: function() {
          document.styleSheets[0].addRule(":root", "--mj-main: rgba(255,250,240,0.5) !important")
          document.styleSheets[0].addRule(":root", "--mj-titlecolor: #000 !important")
          document.styleSheets[0].addRule(":root", "--mj-metacolor: #1C1C1C !important")
      }
  })
} else {
  document.styleSheets[0].addRule(":root", "--mj-main: transparent !important")
  document.styleSheets[0].addRule(":root", "--mj-titlecolor: var(--light-grey) !important")
}

参考：

目标检测 | YOLOv1，经典单阶段Anchor-Free目标检测模型

2022-03-28T03:57:51.000Z

PS:参考YOLO官网的配色和logo做的封面图，感觉还挺好看的，hhhh

1. 论文信息

论文标题：You Only Look Once: Unified, Real-Time Object Detection

论文发表：CVPR 2016
论文链接：You Only Look Once: Unified, Real-Time Object Detection (cv-foundation.org)
论文官网：YOLO: Real-Time Object Detection (pjreddie.com)

@inproceedings{redmon2016you,
  title={You only look once: Unified, real-time object detection},
  author={Redmon, Joseph and Divvala, Santosh and Girshick, Ross and Farhadi, Ali},
  booktitle={Proceedings of the IEEE conference on computer vision and pattern recognition},
  pages={779--788},
  year={2016}
}

2. 归纳总结

标签	目的	方法	总结
#Anchor-Free	解决两阶段算法检测慢的问题	将目标检测（cls和reg）都视为回归问题	经典单阶段算法

3. 问题背景

随着深度学习的大火，在YOLO提出那一年，主流的目标检测算法框架主要分为两类：

两阶段算法：基于Region Proposal的RCNN系列算法，先生成Proposal，再分类回归
单阶段算法：直接预测不同目标的类别和位置
这两种算法各有优点，一般而言，两阶段算法准确度高，但速度慢；单阶段算法速度快，但准确度相对低。

作者认为人可以一眼看到目标在哪，并且能立即知道是什么，并且对于很多实际场景而言，如自动驾驶，实时性和准确性都是非常重要的。

4. 主要工作

针对上述问题，作者提出了经典的YOLO算法，它是一个统一的，端到端的单阶段目标检测算法。YOLO具体做法是，首先将输入图片缩放到448x448，然后送入CNN网络，最后使用NMS过滤网络预测结果得到检测的目标。

而在CNN网络里，它首先将图片划分为S×S大小的网格，然后每个单元格负责检测中心点落在该格子的目标，如下图，每个单元格会输出B个边界框（每个边界框输出5个预测值：x, y, w, h, confidence）以及边界框类别概率C，例如：作者在PASCAL VOC的检测实验里使用S=7，B=2，C=类别数量20，一共预测7×7×(2×5+20)个向量。同时这里的confidence代表边界框置信度，它的定义为:

$$Pr(object)\times IoU_{pred}^{truth}$$

其中边界框包含目标时，$Pr(object)=1$，否则为0。而C代表每个类别的置信度，即：

$$Pr(Class_i|Object)\times Pr(objec) \times IoU_{pred}^{truth}=Pr(class_i)\times IoU_{pred}^{truth}$$

4.1 模型结构

YOLO采用卷积网络来提取特征，然后使用全连接层来得到预测值。网络结构参考GooLeNet模型，包含24个卷积层和2个全连接层。对于卷积层，主要使用1x1卷积来做channle reduction，然后紧跟3x3卷积。对于卷积层和全连接层，采用Leaky ReLU激活函数$max(x,0.1x)$，但是最后一层却采用线性激活函数。

4.2 模型训练

在训练之前，先在ImageNet上进行了预训练，其预训练的分类模型采用图8中前20个卷积层，然后添加一个average-pool层和全连接层。预训练之后，在预训练得到的20层卷积层之上加上随机初始化的4个卷积层和2个全连接层。由于检测任务一般需要更高清的图片，所以将网络的输入从224x224增加到了448x448。

4.3 模型损失

Yolo算法将目标检测看成回归问题，所以采用的是均方差损失函数。但是对不同的部分采用了不同的权重值。首先区分定位误差和分类误差。对于定位误差，即边界框坐标预测误差，采用较大的权重 $\lambda_{coord}=5$ 。然后其区分不包含目标的边界框与含有目标的边界框的置信度，对于前者，采用较小的权重值 $\lambda_{noobj}=0.5$ 。其它权重值均设为1。然后采用均方误差，其同等对待大小不同的边界框，但是实际上较小的边界框的坐标误差应该要比较大的边界框要更敏感。为了保证这一点，将网络的边界框的宽与高预测改为对其平方根的预测，即预测值变为$(x,y,\sqrt{w},\sqrt{h})$。

损失函数中，第一项为边界框中心坐标的误差项，$\mathbb{1} _ {ij}^{obj}$ 是指第 i 个单元格存在目标，且该单元格中的第 j 个边界框负责预测该目标，第二项是边界框的高与宽的误差项。第三项是包含目标的边界框的置信度误差项。第四项是不包含目标的边界框的置信度误差项。最后一项是包含目标的单元格的分类误差项，$\mathbb{1} _ {i}^{obj}$值是指第 i 个单元格存在目标。

5. 实验结果

6. 参考文献

目标检测|YOLO原理与实现 - 知乎 (zhihu.com)

目标检测 | SSD，经典单阶段Anchor-Based目标检测模型

2022-03-28T02:57:59.000Z

1. 论文信息

论文标题：《SSD: Single Shot MultiBox Detector》

论文发表：2016
论文链接：SSD: Single Shot MultiBox Detector | SpringerLink

@inproceedings{liu2016ssd,
  title={Ssd: Single shot multibox detector},
  author={Liu, Wei and Anguelov, Dragomir and Erhan, Dumitru and Szegedy, Christian and Reed, Scott and Fu, Cheng-Yang and Berg, Alexander C},
  booktitle={European conference on computer vision},
  pages={21--37},
  year={2016},
  organization={Springer}
}

2. 归纳总结

标签	目的	方法	总结
#Anchor #单阶段	实现多尺度以及卷积预测，进一步提升精度和速度	MultiBox，Anchor	经典单阶段算法

3. 引言

SSD算法，其英文全名是Single Shot MultiBox Detector, SSD的优势在于消除了bounding box proposal和pixel or feature resampling，并使用了multi-scale，因此达到了比faster rcnn和yolo更高的检测精度和更快的检测速度。

图片来自目标检测|SSD原理与实现 - 知乎 (zhihu.com)

4. SSD模型

SSD采用VGG16作为基础模型，然后在VGG16的基础上新增了卷积层来获得更多的特征图以用于检测，模型结构如下图：

SSD和Yolo一样都是采用一个CNN网络来进行检测，但是却采用了多尺度的特征图，网络的核心点：

使用小的卷积核预测类别和边界框偏移量
对多个（多尺度）特征图进行检测
设置不同比例的先验框，如下图

SSD将背景也当做了一个特殊的类别，如果检测目标共有c个类别，SSD其实需要预测c+1个置信度值，其中第一个置信度指的是不含目标或者属于背景的评分。在预测过程中，置信度最高的那个类别就是边界框所属的类别，特别地，当第一个置信度值最高时，表示边界框中并不包含目标。第二部分就是边界框的location，包含4个值(cx,cy,w,h)，分别表示边界框的中心坐标以及宽高。但是真实预测值其实只是边界框相对于先验框的转换值。先验框位置用$d=(d^{cx},d^{cy},d^{w},d^{h})$表示，其对应边界框用$b=(b^{cx},b^{cy},b^{w},b^{h})$表示，那么边界框的预测值$l$其实是b相对于d的转换值：

5. 模型训练

5.1 正负样本划分

首先，对于图片中每个ground truth，找到与其IOU最大的先验框，该先验框与其匹配，这样，可以保证每个ground truth一定与某个先验框匹配。通常称与ground truth匹配的先验框为正样本，其次，通过判断先验框和ground truth之间的IoU值是否大于阈值（如0.5），大于则为正样本

5.2 损失计算

损失包含两个部分：定位损失和分类损失

$$L(x,c,l,g)=\frac{1}{N}(L_{conf}(x,c)+\alpha L_{loc}(x,l,g))$$

其中N代表所匹配的正负样本数量，l代表预测框，g代表真实框，和faster rcnn相似，回归的偏移量的值是边界框的中心坐标(cx,cy)和框的宽度w和高度h。

$$\hat{g} _ {j}^{cx}=(g _ {j}^{cx}-d _ {i}^{cx})/d _ {i}^{w}$$

$$\hat{g} _ {j}^{cy}=(g_{j}^{cy}-d_{i}^{cy})/d_{i}^{h}$$

$$\hat{g} _ {j}^{w}=\log(\frac{g_{j}^{w}}{d_{i}^{w}})$$

$$\hat{g} _ {j}^{h}=\log(\frac{g_{j}^{h}}{d_{i}^{h}})$$

因此定位损失函数为：$L_{loc}(x,l,g)=\sum_{i \in Pos}^N \sum_{m\in {cx,cy,w,h}}x_{ij}^{k}smooth_{L1}(l_i^m-\hat{g} _ j^m)$
分类损失是一个softmax损失：$L_{conf}(x,c)=-\sum_{i\in Pos}^{N}x_{ij}^p\log(\hat{c} _ i^p)-\sum _ {i\in Neg}log(\hat{c} _ i^0)$
其中$\hat{c} _ i^p=\frac{exp(c_i^p)}{\sum_p(exp(c_i^p))}$

6. 参考文献

目标检测|SSD原理与实现 - 知乎 (zhihu.com)

Justlovesmile's BLOG

旋转目标检测 | Oriented RepPoints，基于点集表示的旋转目标检测模型

1. 论文信息

2. 问题背景

3. 主要工作

3.1 模型结构

3.2 自适应方位点集学习

3.3 APAA

4. 实验结果

标签分配 | SASM，形状自适应的样本选择策略

1. 论文信息

2. 问题背景

3. 主要工作

3.1 模型结构

3.2 Motivation

3.3 Shape-Adaptive Selection

3.4 Shape-Adaptive Measurement

3.5 损失函数

4. 实验结果

标签分配 | GGHL，面向旋转目标检测的标签分配策略

1. 论文信息

2. 问题背景

3. 主要工作

3.1 模型结构

3.2 目标自适应采样策略（OLA）

3.3 旋转边界框表示组件（ORC）

3.4 联合优化损失（JOL）

4. 实验结果

旋转目标检测 | FSDet，解决旋转特征不对齐与正负样本不均衡

1. 论文信息

2. 问题背景

3. 主要工作

3.1 模型结构

3.2 旋转特征精炼（OFR）

3.3 类感知上下文聚合（CCA）

3.4 软标签分配（SLA）

4. 实验结果

PLOG | 国庆随手拍，北京动物园以及奥体公园

长安街、故宫附近

北京动物园

奥林匹克公园

PLOG | 北京实习近况，逛了逛故宫以及颐和园

颐和园

天安门

故宫

北海公园

北京近郊 - 阳台山

旋转目标检测 | SCRDet，适用于旋转、密集、小目标的检测器

1. 论文信息

2. 归纳总结

3. 问题背景

4. 主要工作

5. 相关工作

6. 模型方法

6.1 SF-Net

6.2 MAD-Net

6.3 IoU-Smooth L1 Loss

7. 实验结果

8. 参考文献

Python小工具 | 如何自动下载、压缩并批量替换文章中的外链图片

1. 下载并替换图片外链

2. 压缩图片

3. 上传npm

旋转目标检测 | IENet，单阶段Anchor-Free旋转目标检测模型

1. 论文信息

2. 归纳总结

3. 问题背景

4. 主要工作

4.1 模型结构

（1） Baseline模型结构(FCOS-O)

（2） IENet

4.2 旋转框几何变换

4.3 IE Module

4.4 损失函数

5. 实验结果

目标检测 | ATSS，正负样本的选择决定检测性能

1. 论文信息

2. 归纳总结

3. 问题背景

4. 主要工作

4.1 `Anchor-Based`和`Anchor-Free`的区别分析

1.1 创建`hometop.pug`

1.2 添加`css`样式

2.1 创建`sticky.pug`

2.2 创建`sticky.js`

2.3 创建`sticky.css`

3.1 创建`slider.yml`

3.2 `css`样式

4.1 创建`people`页面

4.2 创建`css`样式

4.3 创建`js`文件