近几年有关U-Net的研究是越来越火了,创新也是越来越难做,不过今年新技术KAN的出现给我们创造了一个新的突破口,特别KAN+UNet这种结合已经在医学图像分割等视觉任务中实现了超常发挥。
从多方面来讲,这种方法不仅可以增强模型对复杂特征和模式的捕捉能力,提高分割精度,还能通过优化参数和计算过程,提升模型的效率。更牛的是它还提高了模型的可解释性,成功拓展到了更多应用领域(比如多模态医学图像分割),可以说研究价值非常高了。
如果有同学想发表相关论文,可以考虑从集成专用的KAN层、引入标记化KAN模块、结合注意力机制、双通道结构这四个方面入手,目前这方向的创新一般都围绕这些。另外有需要参考方案但不想多花时间找的,可以看看我总结好的,代码但凡开源的都放上了。
双通道结构
构建双通道结构,其中一个通道专注于捕捉局部细节,另一个通道利用KAN层处理全局上下文信息。这种结构能帮助模型保持对局部特征的敏感性,以及对全局信息的把握能力,提高分割的准确性和鲁棒性。
比如双通道U-Net架构KANDU-Net,用于医学图像分割任务。
创新点:在每个编码器和解码器阶段同时使用KAN和卷积通道来提取特征,其中KAN通道实现逐像素处理,用来捕获全局特征和细微变化,卷积通道提供精确的空间信息。这两个通道提取的特征通过一个辅助网络模块自动融合,让KANDU-Net学习如何有效结合KAN和卷积操作提取的特征,从而在保持模型准确性的同时减少参数数量和计算负载。
集成专用的KAN层
这种方法是提升性能的关键。在标记化的中间表示上集成专用的KAN层,修改并重新设计U-Net,有效利用了KAN网络在非线性建模能力和可解释性方面的优势,让U-Net在医学图像分割等视觉任务中表现出更高的精确度和效率。
比如一篇探讨KAN在计算机视觉领域应用的文章。
创新点:通过引入参数高效的设计和微调算法,以及在自注意力和焦点调制层中使用KAN卷积,显著减少模型的参数数量,同时在多个图像分类和分割数据集上实现了与经典卷积网络相媲美或更优的性能。
引入标记化KAN模块
将U-Net架构中的部分或全部卷积层替换为标记化KAN层,这些层利用注意力机制动态调整卷积核权重,并结合Vision Transformer(ViT)的移位思想,将图像特征转换为标记序列,再通过自注意力机制捕捉全局上下文信息。
比如一种基于深度学习的方法,用于从单一通道的涡轮自旋回波输入直接合成抗金属伪影的合成MPRAGE对比度。
创新点:引入了基于KAN的标记化模块(Tokenization-KAN-Blocks,TokKAN),这些模块嵌入在编码器-解码器路径的瓶颈部分,通过将输入图像分割成小块并将其转换为一维令牌序列,以增强网络的非线性近似能力和特征提取,从而在图像合成质量上取得了显著的改进。
结合注意力机制
将KAN层(具备传统卷积功能并融入注意力机制,能动态调整卷积核权重)引入U-Net的卷积层,并在跳跃连接中增加注意力模块以细化特征图并增强局部细节理解能力,同时结合空间与通道注意力机制,这样模型能更精准、全面地捕捉图像特征,显著提升医学图像分割的准确性和鲁棒性。
比如一种混合架构TransUKAN,用于增强医学图像分割。
创新点:将KAN与多头自注意力机制(Multi-Head Self-Attention, MSA)结合,确保模型在每个特征提取和处理阶段都保持高效的非线性表示能力,允许模型在全局依赖关系建模中同时保持对局部信息的敏感性,以提高整体性能。