开云体育中国官网入口

开云体育中国官网入口
你的位置:开云体育中国官网入口 > 开云体育app > 开云体育中国官网入口 Meta蔡志鹏新作VLM³: 全面揭示三维视觉的Bitter Lesson
开云体育中国官网入口 Meta蔡志鹏新作VLM³: 全面揭示三维视觉的Bitter Lesson
发布日期:2026-06-15 05:40    点击次数:107

开云体育中国官网入口 Meta蔡志鹏新作VLM³: 全面揭示三维视觉的Bitter Lesson

蔡志鹏博士(https://zhipengcai.github.io/)是好意思国 Meta 公司的高档商议员,博士毕业于澳大利亚阿德莱德大学。他的商议主要鸠合在 Physical Intelligence,包括三维视觉、多模态大模子等。他的职责已在领域顶级会议杂志上发表向上 20 篇。其中 10 篇著作被选为顶级会议表面或特邀讲演,对鲁棒揣摸计较复杂度的表面解说职责被选为 ECCV18 12 篇最好论文之一。

Meta 发布了一项令东谈主颠簸的商议职责 VLM³,初次揭示了三维视觉学习的 Bitter Lesson:尺度的视觉谈话模子 + scale 数据就是最浅易有用的范式,针对特定任务的架构、耗损函数以及数据增强的预备,以至是 regression 的 formulation,均不是三维视觉学习的必要要求。

面前的视觉谈话 AI 模子(Vision Language Models, VLMs)通过和谐的模子架构大致无邪惩办万般不同的视觉任务。然则,尽管在语义认知、视觉问答、图像教唆等任务上弘扬优异,它们在三维视觉方面仍然弘扬欠安。比拟之下,大师视觉模子(expert vision models)在统统深度揣摸(metric depth estimation)等三维理罢免务上,凭借特意预备的采聚合构、耗损函数及数据增强,还是达到了格外东谈主类的精度。

这就带来了一个中枢问题:「视觉谈话模子是否在三维视觉学习方面无法替代大师模子?」VLM³ 初次解说了该问题的谜底是狡赖的!

VLM³ 通过极简的预备,在极为万般的三维视觉任务中忘形或格外大师视觉模子,并大幅格外开端进的视觉谈话模子:1)在单目深度揣摸上 match UnidepthV2 及 MoGe2;2)在指标级三维理罢免务上格外 SpatialRGPT;3)在像素匹配任务上格外 DKM 和 RoMa;4)在相机姿态揣摸上 match DA3,格外 VGGT。

代码地址:https://github.com/facebookresearch/VLM3

二、亮点

在此之前,即即是开端进的 VLM 在尺度的三维视觉任务中均远远逾期于大师视觉模子。

VLM³ 通过提神的实验发现,尺度的 VLM 仅需要 1)相机焦距归一化;2)像素空间归一化,就大致以令东谈主赞佩的简易神色有用学会万般三维视觉模子,在 1)单目深度揣摸中 match UniDepthV2 及 MoGe2;2)在指标级别三维认知格外 SpatialRGPT;3)在像素匹配任务上格外 DKM 和 RoMa;4)在相机姿态揣摸上 match DA3 并格外 VGGT。

和之前的三维视觉 VLM 不同,VLM³ 既不需要改动 VLM 的架构,也不需要在图片上渲染 marker。比拟于大师视觉模子需要多量的架构、耗损函数及数据增强方面的复杂预备,开云体育·(KAIYUNSPORTS)VLM³ 仅需要尺度的 VLM 架构(如 Qwen3-vl-4B)和磨真金不怕火(基于笔墨的 SFT)就大致在极为万般的三维任务上达到 SOTA。

这种简易的磨真金不怕火推翻了之前三维视觉的学习范式,并揭示了三维视觉的 Bitter Lesson:咱们其实完全不需要针对特定三维视觉任务东谈主为预备复杂的架构、耗损函数及数据增强。通过浅易的视觉谈话建模 + scale 数据就大致达到相通的遵守,况兼于其他非三维视觉任务在和谐的谈话模子磨真金不怕火框架下完全兼容。这使得三维视觉不再需要与视觉谈话模子的大边界预磨真金不怕火分辩,同期咱们大致使用相通的神色来结束三维视觉的 scaling law。

同期 VLM³ 的顺利也意味着三维视觉的学习远比咱们念念象中的要容易:除开不需要特殊架构、耗损函数等,咱们以至不错不依赖追念(regression)来学会 fine-grained 3D understanding,这在之前的职责中是难以念念象的,因为在贯穿的输出空间进行追念是绝大多数三维视觉模子的中枢预备。

三、主要截至 / 性能对比

在四大三维视觉任务上性能权贵优于开端进的 VLM

在单目深度揣摸上将 DepthLM 的准确率从 84 升迁至 90,况兼磨真金不怕火及推理愈加浅易高效,无需渲染 marker。

在指标级别三维认知上用相通的磨真金不怕火数据格外 SpatialRGPT,况兼无需格外的 encoder,模子参数少一半(4B vs 8B)。

在多视角几何任务上如像素匹配及相机姿态揣摸上远超 Qwen3-vl-32B。

同期在与先进的大师视觉模子(如 MoGe2、DA3、RoMa 等)的对比中,VLM³ 也绝不失容,况兼完全不需要复杂的架构、耗损函数及数据增强。

开云体育app2026世界杯中国官网下载

四、意旨 / 诳骗远景

VLM³ 再行界说了三维视觉的最勤学习范式:最浅易的 generalist 架构如 VLM 及 scaling 就是最通用的三维视觉范式!以前三维视觉领域广泛秉承的东谈主为的 task-specific 的预备并非必须。

这将极猛进度地简化三维基础模子的构建。通过将三维视觉任务融入视觉谈话模子的预磨真金不怕火,咱们也能有用地兼容三维视觉与其它视觉任务,并将 VLM 的上风,及无邪性与泛化性从语义及二维视觉任务有用拓展至三维视觉,极猛进度升迁模子的才能上限。

结语

VLM³ 的出现,初次买通了视觉谈话模子与三维视觉之间的壁垒,使得和谐的架构就大致简易地学会万般视觉任务,并达到大师模子的性能。这既是科研层面的里程碑开云体育中国官网入口,也为异日在实质系统中和谐多模态推理才能提供了可能。咱们期待 VLM³ 后续在机器东谈主、自动驾驶、增强施行等场景中的落地诳骗。