CVPR 2026现场直击：CV与机器人的物理结界被彻底打破

2026/06/05 18:47

6月4日，当维也纳多瑙河畔的 ICRA 2026 进入正会的最后一天，大洋彼岸的美国丹佛科罗拉多会议中心（Colorado Convention Center）已经人声鼎沸。许多我们前几天还在维也纳见到的熟悉面孔，各大顶尖高校的学者和硬科技企业的高管，此刻都正拖着行李箱，马不停蹄地出现在丹佛的街头。

这种罕见的“全球双城赶场”现象背后，是计算机视觉（CVPR）与机器人（ICRA）两大顶会赛道正在发生的史诗级大融合。

今年的 CVPR 在丹佛当地时间 6月3日至4日率先开启 Workshop 环节，正会及重磅颁奖典礼则在 6月5日正式拉开帷幕，雷峰网已提前抵达第一现场，为您带来这份滚烫的展前观察。

1.6万篇投稿的“诸神之战”：

从感知世界，到理解物理

最新官方数据显示，本届 CVPR 2026 的论文投稿量达到了惊人的 16,092 篇，较上一年激增 24%，而最终录用量在 4,090 篇左右，录用率依旧维持在残酷的 25.42% 上下。

翻看今年的论文列表与 Workshop 议程，如果说前两年的 CVPR 还在卷图像生成和 2D 检测，那么今年丹佛的核心叙事已经彻底转向了“多模态基础模型”与“具身智能”。

在挤满人的分会场里，这种趋势尤为明显。

无论是探讨如何将视觉-语言-动作（VLA）模型部署到自动驾驶和机器人上的 WDFM-EAI（具身智能基础模型部署）Workshop，还是引入了真实机器人操控挑战赛（ManipArena Competition）的具身智能专场，都在传递一个极其明确的信号：计算机视觉已经走出了“画框识别”的屏幕舒适区，全面向具有物理法则的真实三维世界进军。视觉系统不再仅仅满足于“看（Sense）”，而是开始作为中枢大脑主导“行动（Act）”。

中国高校的论文产出量也折射出这股浪潮的烈度。 最新统计显示，CVPR 2026 高校论文接收 Top 10 中，中国高校占据八席：上海交通大学以 46 篇高居榜首，浙江大学 40 篇紧随其后，中国科学技术大学 38 篇位列第三，中山大学以 36 篇超越北大、清华冲入前四，堪称本届最大黑马。

更为惊人的是西湖大学。仅 4 位学者合力产出 22 篇，以“闪电战”模式跻身第十，人均效率冠绝全场。

CVPR的中国军团：

大厂坐镇，新锐出海，重塑生态话语权

在去年的顶会上，中国学者的论文数量就已占据半壁江山。而在今年的丹佛，这种中国力量同样体现在产业端和生态链的每一个环节。

今年在丹佛布展的中国公司，覆盖了互联网、大模型、机器人、智能驾驶四大领域：

字节跳动、阿里巴巴、蚂蚁集团、腾讯、美团、元戎启行、百度、MiniMax、宇树科技、光轮智能、自变量。

我们现场还看到了官方的赞助商名单，堪称一份中国 AI 实力的“巡礼图”：

终极赞助商与白金阵营：腾讯强势拿下最高级别的 Ultimate Sponsor；在白金赞助商中，阿里云、蚂蚁集团、字节跳动悉数在列，体现了中国科技巨头在算力与大模型上的统治力。更引人注目的是，国内大模型独角兽 MiniMax 也跻身白金行列，展示了中国多模态大模型企业强劲的出海与科研反哺实力。
黄金与白银阵营：如果说大厂代表了底气，那么具身智能等垂直赛道的初创公司则代表了锐气。在这个区间，我们看到了令人惊喜的本土生态网：

Sudo（苏度科技）：由知名学者苏昊教授创办的具身智能明星公司，高调亮相丹佛，带来其在强化学习与物理仿真领域的最新降维打击。

此前雷峰网编辑在ICRA 2026展会现场报道，苏度科技机器人已能够准确抓取不同材质和形态的物体，泛化性极高。

Linkerbot：总部位于北京的中国明星机器人创企，专注于高自由度灵巧手及具身智能硬件研发。
Nexdata（数据堂国际品牌）：在数据为王的今天，他们直接端出了行业最紧缺的 VLM 数据集及灵巧手物理遥操作数据，精准卡位“数据基建”。
HPC AI COM（潞晨科技）：尤洋教授团队带来的 Colossal-AI 系统，正在为全球开源大模型与视频生成（如 Open-Sora）提供底层弹药。
百度（Baidu）与美团（Meituan）也出现在黄金赞助商阵营，进一步壮大了中国军团的阵容。

从提供算力和基础架构（阿里云、潞晨），到多模态基座大模型（MiniMax、字节），再到数据集（Nexdata）和具身智能本体硬件（苏度、Linkerbot），中国企业在 CVPR 2026 的舞台上，已经完全撕掉了过去“底层代工”的标签，构建起了一条坚不可摧的“软硬一体全栈 AI 产业链”。

Workshop 密集开火：

中国企业从“参会”走向“设局”

如果说赞助商名单是实力的名片，那么 Workshop 才是真正争夺话语权的主战场。

在 CVPR 2026 为期三天的 Workshop 环节中，超过 80 场专题研讨会密集开火，其中中国企业与机构不再只是“到场听讲”，而是越来越多地以组织者身份亲自“设局”，把议题方向和评审标准攥在自己手里。

WDFM-EAI：特斯拉与小鹏“纯视觉双雄”同台

6月3日，本届 CVPR 产业浓度最高的对话在 WDFM-EAI（具身智能基础模型部署）Workshop 悄然上演。

特斯拉 Autopilot 及 AI 负责人 Ashok Elluswamy 与小鹏汽车通用智能中心负责人刘先明，以及 Waymo 研究副总裁 Dragomir Anguelov、英伟达感知与机器人研究副总裁 Jan Kautz，罕见同台。

刘先明是现场唯一受邀的中国车企代表。这也是小鹏第三次登上 CVPR 演讲台。

Ashok 的演讲题目为《Building Foundational Models for Robotics at Tesla》，系统披露了 Tesla 在具身智能方向的技术积累：FSD 上下文长度从约 10 秒猛增至约 30 秒（提升 3 倍）；FSD 模型完整输入/输出架构首次公开亮相。

现场还播放了一段 Tesla Robotaxi 瞬间避让摔落骑行者的真实视频，引发全场热议，清晰传递出 Tesla 的战略意图：将自动驾驶作为更广泛机器人与具身 AI 平台的一部分，与 Optimus 人形机器人项目深度协同。

刘先明则给出了小鹏对“模块化堆叠 vs 端到端世界模型”之争的明确答案：“VLA 与世界模型并非相互竞争的技术路线，而是物理世界基座模型的两大支柱。”

VLA 学的是“人类驾驶员会怎么做”，世界模型学的是“物理世界接下来会发生什么”，二者融合才是正解。

他进一步透露，小鹏第二代 VLA 已量产落地，推送首月用户辅助驾驶里程占比首次突破 50%，并判断“只有能做基座模型的公司，才有可能真的做到 L4”。

OpenDriveLab：从自动驾驶到具身智能，上海 AI Lab 系连办四届

如果说 WDFM-EAI 是产业对话场，那么 OpenDriveLab（上海 AI Lab/商汤系）主办的 EmbodiedAIinLife Workshop 则是学术话语权的硬核争夺。

这已经是该团队连续第四年在 CVPR 主办 Workshop：从 2023 年的“端到端自动驾驶”，到 2024 年的“具身智能与自动驾驶”，到 2025 年的“基础模型与自主系统”，再到今年的“从实验室到生活：野外具身智能”，研究视野从特定任务逐步拓展到通用具身智能。

今年的嘉宾阵容堪称全明星：

苏昊教授（苏度科技创始人、CVPR 2025 程序主席）演讲《物理理解的幻觉》；
哈佛助理教授 Yilun Du 谈世界模型与具身智能；
UC Berkeley 的 Jiahui Lei 讲从 4D 视觉到机器人；
UPenn 助理教授Jiatao Gu发问“具身智能需要关心 3D 吗？”

更值得注意的是，Workshop 尾声特别设置了嘉宾与组织者辩论环节，火药味可见一斑。

GigaBrain Challenge：真机赛道成中国团队主场，小米斩获双料冠军

如果说 Workshop 演讲描绘了具身智能的理论蓝图，那么赛场上的真机对决则用硬指标给出了最直白的回答：概念能不能落地，数据说了算。

由极佳视界（GigaAI）牵头，联合港大、北大、上海交大、地平线机器人、智元机器人（AGIBOT）等共同组织的 GigaBrain Challenge 2026，是本届 CVPR 竞赛维度最丰富的 Workshop 之一。

它同时开设了四个赛道：仿真 VLA 评测（RoboTwin）、世界模型评估器（GigaWorld）、真机机器人操控（RoboChallenge）和物理爪持演示（PhysClaw），从仿真到真机、从评估到部署，构成了一条完整的具身智能能力验证链路。

这个 Workshop 也成了中国团队的主场：小米拿下 RoboChallenge 真机赛道冠军（40.89% 成功率，唯一破 40%成功率），电子科技大学拿下 RoboTwin 仿真赛道冠军，清华大学拿下世界模型赛道冠军，清华深研院拿下 PhysClaw 演示赛道冠军。中国团队在四个赛道中包揽全部冠军，这在 CVPR 历史上极为罕见。

值得一提的是，小米机器人团队同时斩获本届 CVPR 2026 与 ICRA 2026 两项冠军，成为丹佛与维也纳双城最耀眼的“中国赛果”。

RoboChallenge Track共设置 30 个超难度真实任务，涵盖双臂灵巧操作、柔性物体操控、工具因果推理与跨平台鲁棒性，需进行 10 次连续无干扰测试，且要求提交统一多任务模型。

在这对泛化性要求极高的赛事中，小米参赛模型“my16”杀出重围，它采用“S1/S2 双系统 + 长短期记忆 + 跨本体预训练”的整体架构，融合了大模型的认知深度、控制器的执行精度与记忆系统的长程稳定性。

最终，my16以 40.89% 的整体成功率显著领先，是本届赛事唯一突破 40% 成功率门槛的模型，综合排名位列总榜第一。

现场直击：F 展厅首秀与巴黎响应

为了让参会者更直观地感受技术如何转化为现实应用，CVPR 2026 历史上首次在 F 展厅推出“AI Demonstrations”环节。

近 30 场来自各大科技公司和研究团队的现场演示，将实验室里的前沿论文变成可交互、可运行的真实系统。不少参会者戏称：“这才是 CVPR 的正确打开方式——不看 poster，看真机。”

而在丹佛主会场之外，一股“平行浪潮”同样值得关注。大量无法赴美的欧洲学者，在巴黎自发组织了 CVPR@Paris 2026 平行活动，其讲者名单含金量极高，包括多位 CV 领域顶尖学者，近年来在多模态与视觉大模型领域频出爆款的香港大学李弘扬教授（Hongyang Li）在ICRA、CVPR两大顶会赶场的同时，也受邀成为 CVPR@Paris 2026 的嘉宾，即将登台分享。

这一方面折射出 CVPR 的全球影响力已溢出丹佛会场，另一方面也暗示着：计算机视觉这场“诸神之战”，早已不再局限于某一个地理坐标。

CVPR正会将在当地时间6月5日开始，届时开幕式上也将会颁布一系列奖项，雷峰网将会持续关注。

锁定雷峰网(公众号：雷峰网)专区，独家抢先透视

从 ICRA 的维也纳，到 CVPR 的丹佛，技术的浪潮正在前所未有地加速。

纯视觉如何抹平 Sim-to-Real 的虚实差异？视觉大模型如何学会理解 3D 空间结构与反常识的物理碰撞？VLA 与世界模型的融合终局在哪里？

为了让国内的研发者、创业者与投资人能够毫无时差地掌握本届 CVPR 2026 的完整干货，雷峰网已全面上线【CVPR 2026 深度专区】。

专区不仅全面收录了重磅论文的工程化解读、专家前沿演讲，更将持续更新前方的第一手会议动态。

扫描下方二维码，或点击「阅读原文」关注专区。

专题

CVPR 计算机视觉与模式识别会议查看更多文章