—— 从技术史到商业选择的深层逻辑
提到计算机视觉,很多人会先想到OpenCV、Haar级联这些“老工具”——早在上世纪90年代,传统视觉算法就已经能解决不少实际问题:用HOG特征做行人检测、靠Haar级联实现人脸识别、通过SIFT匹配图像特征,这些技术至今仍在工厂流水线的“零件定位”、普通安防的“运动抓拍”等场景里发挥作用,且优势鲜明:计算量小、适配嵌入式设备、成本可控,完全能满足“简单任务+低算力”的需求。
但近几年,Meta、谷歌、OpenAI等公司却不约而同地放弃了“传统视觉算法的优化路径”,转而让视觉AI全面拥抱Transformer架构——ViT(视觉Transformer)、PaLM-E(多模态Transformer)、Sora(视频生成Transformer)相继问世,甚至不惜承担更高的算力消耗。这背后绝非“技术跟风”,而是行业对“视觉AI未来”的一次集体判断,核心答案藏在“两个矛盾”与“一个关键目标”里。
一、先理清一个认知盲点:工业场景的“实用”与AI的“长期智能”是两回事
很多人疑惑:特斯拉自动驾驶用传统CV+CNN就能实现“识别红绿灯、避让行人”,工厂质检用传统算法就能“检测零件划痕”,为什么大公司还要花大力气做视觉Transformer?
本质是场景目标不同:
- 工业、自动驾驶的“当前需求”是“高效完成单一任务”——比如特斯拉的视觉系统,核心是“在100ms内判断‘前方物体是否是行人’”,不需要理解“行人为什么过马路”“行人穿的衣服是什么材质”,传统CV+轻量模型足够快、足够便宜,适配车载嵌入式设备的算力限制;
- 但Meta、谷歌的“长期目标”是“让AI理解现实世界”——比如让机器人看到“杯子”时,不仅能识别“这是杯子”,还能关联“杯子能装水”“玻璃杯子怕摔”等文字知识,甚至用语言描述“杯子放在桌子上”。这种“视觉+语言+知识”的联动,传统视觉算法根本做不到——它只能输出“杯子的像素特征”,无法与文字的“语义信息”产生关联。
简单说:传统视觉是“专精工具”,能解决“眼前的实用问题”;而视觉Transformer是“基础设施”,要解决“AI如何看懂世界并关联知识”的长期问题。
二、视觉Transformer的真正价值:打通“视觉-语言”的隐空间,避免“二次训练陷阱”
传统视觉算法最大的局限,不是“识别精度不够”,而是“与语言系统完全割裂”——
- 用CNN训练的“猫识别模型”,会把“猫”编码成一串“视觉特征向量”(比如“三角形耳朵+毛茸茸身体”的数值表达);
- 用RNN(Transformer之前的语言模型架构)训练的“猫”文字模型,会把“猫”编码成一串“语言特征向量”(比如“哺乳动物+会抓老鼠”的语义表达)。
这两串向量属于“两个完全不同的隐空间”,就像“中文和英文的字典”,AI不知道“视觉里的猫”和“文字里的猫”是同一个东西。如果要让它们关联,需要额外训练“特征转换模块”,相当于“重新翻译一本字典”,成本高且效果差。
而Transformer架构恰好解决了这个问题:
- 语言大模型(如GPT)用Transformer把文字编码成“语言隐空间”,视觉Transformer(如ViT)把图像编码成“视觉隐空间”——两者架构完全一致,隐空间的“数据格式”天然兼容;
- 后续只需训练一个“跨模态注意力层”,就能让“猫的视觉特征”与文字“猫”的语义特征在隐空间形成“一一映射”,相当于AI天生就知道“看到的这个动物,就是文字里说的‘猫’”。
这才是大公司选择Transformer的核心:不是为了让视觉识别更准,而是为了让“视觉”和“语言”能原生联动。传统架构需要“先训视觉、再训语言、最后训关联”,三步走;而Transformer架构能“一次训练,同步关联”,为未来的多模态智能(能看、能说、能理解)省去了“二次训练”的巨大成本。
三、顶尖公司的选择:用统一架构押注“通用智能”
Meta、谷歌、OpenAI的布局,本质是“用Transformer统一视觉与语言的技术底座”:
- Meta的ViT(2020年发布)是第一个成熟的视觉Transformer模型,直接证明“用处理文字的架构能处理图像”;随后推出的LLaVA多模态模型,正是基于ViT的视觉特征与LLM的语言特征,实现了“看图说话+图像问答”;
- 谷歌的PaLM-E更直接:把视觉Transformer与语言Transformer“缝合”成一个模型,让AI看到“桌子上的苹果”时,既能识别物体,又能生成“苹果在桌子上,我可以把它拿起来吃”的文字逻辑;
- OpenAI的Sora虽然是视频生成模型,但其核心依然是“用Transformer处理视频的时空特征”,并能结合文字指令(如“一个人在雪地里散步”)生成视频——这背后正是“文字隐空间”与“视频隐空间”的关联能力。
这些公司的专家早在多年前就看清:AI要实现通用智能(AGI),必须先打破“感官”与“知识”的壁垒。视觉是AI获取现实信息的主要渠道,语言是人类积累知识的主要载体,而Transformer是目前唯一能让两者“原生联动”的架构。
对普通人来说,这可能只是“技术细节”;但对行业而言,这是“让AI从‘工具’变成‘能理解世界的智能体’”的必经之路——毕竟,人类的智能,本就是“用眼睛看世界,用语言思考和交流”的结合体。
结语:不只是“技术选择”,更是“智能路线的押注”
我们不必纠结“视觉是否必须用Transformer”——在工业场景的“高效实用”需求里,传统算法仍有不可替代的价值;但要理解“为什么顶尖公司都在做视觉Transformer”:它不是为了替代谁,而是为了搭建“AI理解世界”的基础设施。
当AI能像人类一样,看到“杯子”就想到“装水”,看到“行人皱眉”就关联“可能生气”,这种“视觉+语言+知识”的联动,才是真正的“智能”。而Transformer,正是目前能实现这一目标的最佳路径。