醋醋百科网

Good Luck To You!

【AAAI 2025】新型风车形卷积PConv,大感受野,可替换标准卷积!

一、论文信息

论文题目:Pinwheel-shaped Convolution and Scale-based Dynamic Loss for Infrared Small Target Detection

中文题目:风车形状的卷积和基于尺度的动态损失用于红外小目标检测

论文链接:https://arxiv.org/pdf/2412.16986

官方github:https://github.com/JN-Yang/PConv-SDloss-Data

所属机构:西南科技大学信息与工程学院,南京理工大学电子与光学工程学院

核心速览:本文提出了一种新颖的风车形卷积(PConv)和基于尺度的动态损失(SD Loss)方法,用于红外小目标检测,显著提升了检测性能。

二、论文概要

Highlight


图6:红外搜索与跟踪检测模型的结果可视化。

图7:IRST分割模型的结果可视化。

1. 研究背景:

  • 研究问题:红外小目标检测和分割(IRSTDS)在军事和民用领域具有重要应用,但现有基于卷积神经网络(CNN)的方法通常使用标准卷积,未充分考虑红外小目标像素分布的空间特性。此外,现有损失函数未能充分考虑不同目标尺度下尺度和位置损失的敏感性差异,限制了对暗小目标的检测性能。
  • 研究难点:红外小目标通常因距离远而呈现暗淡、低信噪比(SNR)和低信号杂波比(SCR),缺乏纹理信息,且目标大小和形状随距离变化,复杂背景进一步遮蔽目标。现有数据集存在小目标比例低、背景简单、数据规模小等问题,限制了检测器在复杂现实场景中的性能。
  • 文献综述:传统模型驱动方法依赖于先验知识的手动参数调整,适应性差,鲁棒性低。相比之下,基于数据驱动的深度学习(DL)方法利用大量和多样化的IRSTDS数据,通过损失函数的梯度下降实现参数的自动更新,具有更强的鲁棒性。CNN基础的IRSTDS方法主要分为基于检测的方法和基于分割的方法。现有损失函数如GIoU、CloU、NWD、SAFit等在处理IoU波动误差和不同尺度目标的敏感性方面存在局限性。

2. 本文贡献:

  • PConv模块设计:提出了一种新颖的pinwheel-shaped convolution(PConv)模块,该模块通过不对称填充创建水平和垂直方向的卷积核,以适应红外小目标的高斯空间分布特性。PConv模块在骨干网络的较低层替代标准卷积,以增强特征提取能力,显著增加感受野,并且只引入了最小的参数增加。
  • 感受野与参数效率:PConv模块通过分组卷积显著扩大了感受野,同时最小化了参数数量的增加。例如,PConv(3,3)相较于3×3标准卷积,感受野增加了177%,参数仅增加了111%。PConv(4,3)的感受野增加了444%,参数仅增加了122%。通过将PConv和标准卷积的输出结果进行对比,展示了PConv在增强红外小目标与背景对比度的同时,抑制了杂乱信号。

三、方法

图3:风车形卷积模块的架构。

Pinwheel-shaped Convolution(PConv)是一种新颖的卷积模块,旨在更好地与红外小目标的像素高斯空间分布对齐,增强特征提取能力,并显著增加感受野,同时只引入最小的参数增加。以下是PConv的实现过程:

1. 填充:PConv模块使用不对称填充来创建水平和垂直四个方向的卷积核,以适应图像的不同区域。卷积核向外扩散,具有特定的填充参数,以确保输出特征图的高度、宽度和通道数与输入张量相关,其中h1、w1、c1代表输入张量X(h1,w1,c1)的高度、宽度和通道大小。在每个卷积操作后,应用批量归一化(Batch Normalization, BN)和Sigmoid线性单元(SiLU)以增强训练的稳定性和速度。

2. 拼接输出:第一层交错卷积的结果被连接起来(Cat,实际用核大小为2,步长为1的Conv实现),输出计算如下:

四、实验分析

1. IRSTD-1K:包含1,000张真实红外图像,目标尺寸较大,分辨率为512×512像素。

2. SIRST-UAVB:由3,000张红外图像组成,目标包括无人机和鸟类,图像采集自不同季节和天气条件下的复杂背景,具有高比例的小目标。

  • 实验结果表明,提出的PConv模块和SD Loss函数在这些数据集上均取得了显著的性能提升。PConv模块在YOLOv8n-p2检测模型和MSHNet分割模型中均表现出色,特别是在处理小目标时,能够有效提升特征提取能力和检测性能。SD Loss函数在不同尺度的目标检测中动态调整尺度和位置损失的影响系数,显著提高了网络对不同尺度目标的检测能力。
  • 在SIRST-UAVB数据集上,PConv(4,3)配置提供了最佳和最平衡的性能提升,表明对于小目标,增加PConv核长度并不会带来额外的性能增益。
  • 在MSHNet分割模型中,PConv显著优于其他卷积模块,表明PConv核长度为4的配置在第一层提供了更有效的感受野,对于捕获小目标特征至关重要。

五、代码

https://github.com/AIFengheshu/Plug-play-modules/blob/main/(AAAI%202025)%20PConv.py

【头条号】AI缝合术:2025年全网最全即插即用模块,全部免费!适用于图像分类、目标检测、实例分割、语义分割、单目标跟踪(SOT)、多目标跟踪(MOT)、RGBT、图像去噪、去雨、去雾、去模糊、超分等计算机视觉(CV)和图像处理任务,持续更新中......

欢迎转发、点赞、收藏~

控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言