开云体育中国官网入口 Meta蔡志鹏新作VLM³: 全面揭示三维视觉的Bitter Lesson

开云体育中国官网入口

开云体育app: 开云体育; 关于开云; 开云新闻; 开云盘口; 2026世界杯; 开云体育app

热点资讯

开云体育中国官网入口 Meta蔡志鹏新作VLM³: 全面揭示

开云体育中国官网入口时期童衣梗爆火！AI揭秘身高差算法真相

开云中国舟山船舶业“智变”领跑寰宇周国辉: 传统重工业升

你的位置：开云体育中国官网入口 > 开云体育app > 开云体育中国官网入口 Meta蔡志鹏新作VLM³: 全面揭示三维视觉的Bitter Lesson

开云体育中国官网入口 Meta蔡志鹏新作VLM³: 全面揭示三维视觉的Bitter Lesson

发布日期：2026-06-15 05:40 点击次数：107

开云体育中国官网入口 Meta蔡志鹏新作VLM³: 全面揭示三维视觉的Bitter Lesson

蔡志鹏博士（https://zhipengcai.github.io/）是好意思国 Meta 公司的高档商议员，博士毕业于澳大利亚阿德莱德大学。他的商议主要鸠合在 Physical Intelligence，包括三维视觉、多模态大模子等。他的职责已在领域顶级会议杂志上发表向上 20 篇。其中 10 篇著作被选为顶级会议表面或特邀讲演，对鲁棒揣摸计较复杂度的表面解说职责被选为 ECCV18 12 篇最好论文之一。

Meta 发布了一项令东谈主颠簸的商议职责 VLM³，初次揭示了三维视觉学习的 Bitter Lesson：尺度的视觉谈话模子 + scale 数据就是最浅易有用的范式，针对特定任务的架构、耗损函数以及数据增强的预备，以至是 regression 的 formulation，均不是三维视觉学习的必要要求。

面前的视觉谈话 AI 模子（Vision Language Models， VLMs）通过和谐的模子架构大致无邪惩办万般不同的视觉任务。然则，尽管在语义认知、视觉问答、图像教唆等任务上弘扬优异，它们在三维视觉方面仍然弘扬欠安。比拟之下，大师视觉模子（expert vision models）在统统深度揣摸（metric depth estimation）等三维理罢免务上，凭借特意预备的采聚合构、耗损函数及数据增强，还是达到了格外东谈主类的精度。

这就带来了一个中枢问题：「视觉谈话模子是否在三维视觉学习方面无法替代大师模子？」VLM³ 初次解说了该问题的谜底是狡赖的！

VLM³ 通过极简的预备，在极为万般的三维视觉任务中忘形或格外大师视觉模子，并大幅格外开端进的视觉谈话模子：1）在单目深度揣摸上 match UnidepthV2 及 MoGe2；2）在指标级三维理罢免务上格外 SpatialRGPT；3）在像素匹配任务上格外 DKM 和 RoMa；4）在相机姿态揣摸上 match DA3，格外 VGGT。

代码地址：https://github.com/facebookresearch/VLM3

二、亮点

在此之前，即即是开端进的 VLM 在尺度的三维视觉任务中均远远逾期于大师视觉模子。

VLM³ 通过提神的实验发现，尺度的 VLM 仅需要 1）相机焦距归一化；2）像素空间归一化，就大致以令东谈主赞佩的简易神色有用学会万般三维视觉模子，在 1）单目深度揣摸中 match UniDepthV2 及 MoGe2；2）在指标级别三维认知格外 SpatialRGPT；3）在像素匹配任务上格外 DKM 和 RoMa；4）在相机姿态揣摸上 match DA3 并格外 VGGT。

和之前的三维视觉 VLM 不同，VLM³ 既不需要改动 VLM 的架构，也不需要在图片上渲染 marker。比拟于大师视觉模子需要多量的架构、耗损函数及数据增强方面的复杂预备，开云体育·(KAIYUNSPORTS)VLM³ 仅需要尺度的 VLM 架构（如 Qwen3-vl-4B）和磨真金不怕火（基于笔墨的 SFT）就大致在极为万般的三维任务上达到 SOTA。

这种简易的磨真金不怕火推翻了之前三维视觉的学习范式，并揭示了三维视觉的 Bitter Lesson：咱们其实完全不需要针对特定三维视觉任务东谈主为预备复杂的架构、耗损函数及数据增强。通过浅易的视觉谈话建模 + scale 数据就大致达到相通的遵守，况兼于其他非三维视觉任务在和谐的谈话模子磨真金不怕火框架下完全兼容。这使得三维视觉不再需要与视觉谈话模子的大边界预磨真金不怕火分辩，同期咱们大致使用相通的神色来结束三维视觉的 scaling law。

同期 VLM³ 的顺利也意味着三维视觉的学习远比咱们念念象中的要容易：除开不需要特殊架构、耗损函数等，咱们以至不错不依赖追念（regression）来学会 fine-grained 3D understanding，这在之前的职责中是难以念念象的，因为在贯穿的输出空间进行追念是绝大多数三维视觉模子的中枢预备。

三、主要截至 / 性能对比

在四大三维视觉任务上性能权贵优于开端进的 VLM

在单目深度揣摸上将 DepthLM 的准确率从 84 升迁至 90，况兼磨真金不怕火及推理愈加浅易高效，无需渲染 marker。

在指标级别三维认知上用相通的磨真金不怕火数据格外 SpatialRGPT，况兼无需格外的 encoder，模子参数少一半（4B vs 8B）。

在多视角几何任务上如像素匹配及相机姿态揣摸上远超 Qwen3-vl-32B。