醋醋百科网

Good Luck To You!

无需训练、不靠检测,也能精准计数?首个类无关计数方法!

今天来聊聊计算机视觉中的一个常规任务:特定类别的对象计数问题。我们常常需要对图像中的物体进行计数——比如统计人群数量、清点库存物品,这类任务看似简单,实则挑战重重,尤其是在复杂场景下。

那么,针对这样的计数任务,你会想到什么方法?

最直观的做法是目标检测。例如我们要做人群计数,可以使用 YOLOv5 等目标检测模型,先检测每个人的位置,再统计目标框的数量。但这种方法在拥挤场景中漏检率极高,导致计数不准。

于是人们转向了另一种主流思路:密度图回归。通过将图像特征映射为密度图,从而估计出整体数量。这种方法在密集场景下表现更优,但它依然存在一个致命缺陷:严重依赖类别特定的标注数据和监督训练。

有没有一种方法,能让模型不依赖标注数据、也不需要训练 ,就能完成对任意类别的物体进行计数?换句话说,我们需要将物体计数的任务范式,从“封闭世界”推向“开放世界”,使模型能够处理在训练期间从未见过的类别。

一、突破来了:首个“无训练”的类无关计数框架

国外研究团队提出了 CountingDINO —— 这是第一个完全无需训练的类无关计数方法。它不依赖任何人工标注数据,也不需要预训练的监督主干网络,通过用户提供的示例来引导模型识别并统计目标对象的数量,打破了传统“类别绑定”模型的限制。

这意味着:你只需要框出几个你想统计的对象,模型就能自动告诉你图片中有多少个类似的东西

除了CountingDINO外,其他无监督训练的代表性方法包括:拼接图像和 DINO 特征进行训练的UnCounTR,借助 SAM 分割实例的OmniCount。

二、核心思想:从“训练驱动”到“示例驱动”

核心思想是利用自监督的DINO骨干网络提取图像特征,并通过示例特征生成密度图来估计目标数量。具体来说,给定一张图像和一组用户提供的边界框,通过以下步骤实现类别无关计数:

自监督特征提取,使用DINO骨干网络提取图像的特征图,并通过ROI-Align从特征图中提取示例特征。

相似性图生成,将示例特征作为深度卷积核,在整张图像的特征图上滑动,输出的相似性图表示图像各区域与示例的匹配程度。

密度图归一化,通过一个简单的归一化方案将相似性图转换为密度图,确保每个示例区域的响应总和为1。

多尺度处理小目标,针对 DINO 在小目标上的分辨率限制,将图像划分为非重叠象限分别处理,最后融合各区域结果。

在 FSC-147 上进行比较。方法分为无监督方法和无需训练方法两类。每个类别中的最佳方法用下划线标出;基于无监督模型的最佳无需训练方法以粗体显示。

三、范式革新:迈向真正的“开箱即用”计数模型

CountingDINO 的推出标志着类无关计数进入了全新的“无训练”时代。它不仅解决了标注成本高、泛化能力差的问题,还为以下方向带来了启发:零样本部署:模型无需重新训练即可适应新领域; 交互式AI助手:只需用户圈选对象,即可实时反馈数量; 多模态扩展潜力:未来可结合语言描述进一步提升交互体验。开源代码及论文如下:

# 论文链接
https://arxiv.org/pdf/2504.16570
# 代码链接
https://lorebianchi98.github.io/CountingDINO/

最后对视觉大模型或者多模态大模型感兴趣的可后台私信‘加群’进入视觉大模型交流群或者多模态大模型交流群!

控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言