6月4日,当维也纳多瑙河畔的 ICRA 2026 进入正会的最后一天,大洋彼岸的美国丹佛科罗拉多会议中心(Colorado Convention Center)已经人声鼎沸。许多我们前几天还在维也纳见到的熟悉面孔,各大顶尖高校的学者和硬科技企业的高管,此刻都正拖着行李箱,马不停蹄地出现在丹佛的街头。
这种罕见的“全球双城赶场”现象背后,是计算机视觉(CVPR)与机器人(ICRA)两大顶会赛道正在发生的史诗级大融合。
今年的 CVPR 在丹佛当地时间 6月3日至4日率先开启 Workshop 环节,正会及重磅颁奖典礼则在 6月5日正式拉开帷幕,雷峰网(公众号:雷峰网)已提前抵达第一现场,为您带来这份滚烫的展前观察。
最新官方数据显示,本届 CVPR 2026 的论文投稿量达到了惊人的 16,092 篇,较上一年激增 24%,而最终录用量在 4,090 篇左右,录用率依旧维持在残酷的 25.42% 上下。

翻看今年的论文列表与 Workshop 议程,如果说前两年的 CVPR 还在卷图像生成和 2D 检测,那么今年丹佛的核心叙事已经彻底转向了“多模态基础模型”与“具身智能”。
在挤满人的分会场里,这种趋势尤为明显。
无论是探讨如何将视觉-语言-动作(VLA)模型部署到自动驾驶和机器人上的 WDFM-EAI(具身智能基础模型部署)Workshop,还是引入了真实机器人操控挑战赛(ManipArena Competition)的具身智能专场,都在传递一个极其明确的信号:计算机视觉已经走出了“画框识别”的屏幕舒适区,全面向具有物理法则的真实三维世界进军。视觉系统不再仅仅满足于“看(Sense)”,而是开始作为中枢大脑主导“行动(Act)”。
中国高校的论文产出量也折射出这股浪潮的烈度。 最新统计显示,CVPR 2026 高校论文接收 Top 10 中,中国高校占据八席:上海交通大学以 46 篇高居榜首,浙江大学 40 篇紧随其后,中国科学技术大学 38 篇位列第三,中山大学以 36 篇超越北大、清华冲入前四,堪称本届最大黑马。
更为惊人的是西湖大学。仅 4 位学者合力产出 22 篇,以“闪电战”模式跻身第十,人均效率冠绝全场。
在去年的顶会上,中国学者的论文数量就已占据半壁江山。而在今年的丹佛,这种中国力量同样体现在产业端和生态链的每一个环节。
今年在丹佛布展的中国公司,覆盖了互联网、大模型、机器人、智能驾驶四大领域:
字节跳动、阿里巴巴、蚂蚁集团、腾讯、美团、元戎启行、百度、MiniMax、宇树科技、光轮智能、自变量。

我们现场还看到了官方的赞助商名单,堪称一份中国 AI 实力的“巡礼图”:

终极赞助商与白金阵营:腾讯强势拿下最高级别的 Ultimate Sponsor;在白金赞助商中,阿里云、蚂蚁集团、字节跳动悉数在列,体现了中国科技巨头在算力与大模型上的统治力。更引人注目的是,国内大模型独角兽 MiniMax 也跻身白金行列,展示了中国多模态大模型企业强劲的出海与科研反哺实力。
黄金与白银阵营:如果说大厂代表了底气,那么具身智能等垂直赛道的初创公司则代表了锐气。在这个区间,我们看到了令人惊喜的本土生态网:
Sudo(苏度科技):由知名学者苏昊教授创办的具身智能明星公司,高调亮相丹佛,带来其在强化学习与物理仿真领域的最新降维打击。
此前雷峰网编辑在ICRA 2026展会现场报道,苏度科技机器人已能够准确抓取不同材质和形态的物体,泛化性极高。
Linkerbot:总部位于北京的中国明星机器人创企,专注于高自由度灵巧手及具身智能硬件研发。
Nexdata(数据堂国际品牌):在数据为王的今天,他们直接端出了行业最紧缺的 VLM 数据集及灵巧手物理遥操作数据,精准卡位“数据基建”。
HPC AI COM(潞晨科技):尤洋教授团队带来的 Colossal-AI 系统,正在为全球开源大模型与视频生成(如 Open-Sora)提供底层弹药。
百度(Baidu)与美团(Meituan)也出现在黄金赞助商阵营,进一步壮大了中国军团的阵容。
从提供算力和基础架构(阿里云、潞晨),到多模态基座大模型(MiniMax、字节),再到数据集(Nexdata)和具身智能本体硬件(苏度、Linkerbot),中国企业在 CVPR 2026 的舞台上,已经完全撕掉了过去“底层代工”的标签,构建起了一条坚不可摧的“软硬一体全栈 AI 产业链”。
如果说赞助商名单是实力的名片,那么 Workshop 才是真正争夺话语权的主战场。
在 CVPR 2026 为期三天的 Workshop 环节中,超过 80 场专题研讨会密集开火,其中中国企业与机构不再只是“到场听讲”,而是越来越多地以组织者身份亲自“设局”,把议题方向和评审标准攥在自己手里。
WDFM-EAI:特斯拉与小鹏“纯视觉双雄”同台
6月3日,本届 CVPR 产业浓度最高的对话在 WDFM-EAI(具身智能基础模型部署)Workshop 悄然上演。
特斯拉 Autopilot 及 AI 负责人 Ashok Elluswamy 与小鹏汽车通用智能中心负责人刘先明,以及 Waymo 研究副总裁 Dragomir Anguelov、英伟达感知与机器人研究副总裁 Jan Kautz,罕见同台。
刘先明是现场唯一受邀的中国车企代表。这也是小鹏第三次登上 CVPR 演讲台。

Ashok 的演讲题目为《Building Foundational Models for Robotics at Tesla》,系统披露了 Tesla 在具身智能方向的技术积累:FSD 上下文长度从约 10 秒猛增至约 30 秒(提升 3 倍);FSD 模型完整输入/输出架构首次公开亮相。
现场还播放了一段 Tesla Robotaxi 瞬间避让摔落骑行者的真实视频,引发全场热议,清晰传递出 Tesla 的战略意图:将自动驾驶作为更广泛机器人与具身 AI 平台的一部分,与 Optimus 人形机器人项目深度协同。

刘先明则给出了小鹏对“模块化堆叠 vs 端到端世界模型”之争的明确答案:“VLA 与世界模型并非相互竞争的技术路线,而是物理世界基座模型的两大支柱。”
VLA 学的是“人类驾驶员会怎么做”,世界模型学的是“物理世界接下来会发生什么”,二者融合才是正解。
他进一步透露,小鹏第二代 VLA 已量产落地,推送首月用户辅助驾驶里程占比首次突破 50%,并判断“只有能做基座模型的公司,才有可能真的做到 L4”。

OpenDriveLab:从自动驾驶到具身智能,上海 AI Lab 系连办四届
如果说 WDFM-EAI 是产业对话场,那么 OpenDriveLab(上海 AI Lab/商汤系)主办的 EmbodiedAIinLife Workshop 则是学术话语权的硬核争夺。
这已经是该团队连续第四年在 CVPR 主办 Workshop:从 2023 年的“端到端自动驾驶”,到 2024 年的“具身智能与自动驾驶”,到 2025 年的“基础模型与自主系统”,再到今年的“从实验室到生活:野外具身智能”,研究视野从特定任务逐步拓展到通用具身智能。
今年的嘉宾阵容堪称全明星:
苏昊教授(苏度科技创始人、CVPR 2025 程序主席)演讲《物理理解的幻觉》;
哈佛助理教授 Yilun Du 谈世界模型与具身智能;
UC Berkeley 的 Jiahui Lei 讲从 4D 视觉到机器人;
UPenn 助理教授Jiatao Gu发问“具身智能需要关心 3D 吗?”
更值得注意的是,Workshop 尾声特别设置了嘉宾与组织者辩论环节,火药味可见一斑。

GigaBrain Challenge:真机赛道成中国团队主场,小米斩获双料冠军
如果说 Workshop 演讲描绘了具身智能的理论蓝图,那么赛场上的真机对决则用硬指标给出了最直白的回答:概念能不能落地,数据说了算。
由极佳视界(GigaAI)牵头,联合港大、北大、上海交大、地平线机器人、智元机器人(AGIBOT)等共同组织的 GigaBrain Challenge 2026,是本届 CVPR 竞赛维度最丰富的 Workshop 之一。
它同时开设了四个赛道:仿真 VLA 评测(RoboTwin)、世界模型评估器(GigaWorld)、真机机器人操控(RoboChallenge)和物理爪持演示(PhysClaw),从仿真到真机、从评估到部署,构成了一条完整的具身智能能力验证链路。
这个 Workshop 也成了中国团队的主场:小米拿下 RoboChallenge 真机赛道冠军(40.89% 成功率,唯一破 40%成功率),电子科技大学拿下 RoboTwin 仿真赛道冠军,清华大学拿下世界模型赛道冠军,清华深研院拿下 PhysClaw 演示赛道冠军。中国团队在四个赛道中包揽全部冠军,这在 CVPR 历史上极为罕见。

值得一提的是,小米机器人团队同时斩获本届 CVPR 2026 与 ICRA 2026 两项冠军,成为丹佛与维也纳双城最耀眼的“中国赛果”。

RoboChallenge Track共设置 30 个超难度真实任务,涵盖双臂灵巧操作、柔性物体操控、工具因果推理与跨平台鲁棒性,需进行 10 次连续无干扰测试,且要求提交统一多任务模型。
在这对泛化性要求极高的赛事中,小米参赛模型“my16”杀出重围,它采用“S1/S2 双系统 + 长短期记忆 + 跨本体预训练”的整体架构,融合了大模型的认知深度、控制器的执行精度与记忆系统的长程稳定性。
最终,my16以 40.89% 的整体成功率显著领先,是本届赛事唯一突破 40% 成功率门槛的模型,综合排名位列总榜第一。

为了让参会者更直观地感受技术如何转化为现实应用,CVPR 2026 历史上首次在 F 展厅推出“AI Demonstrations”环节。
近 30 场来自各大科技公司和研究团队的现场演示,将实验室里的前沿论文变成可交互、可运行的真实系统。不少参会者戏称:“这才是 CVPR 的正确打开方式——不看 poster,看真机。”
而在丹佛主会场之外,一股“平行浪潮”同样值得关注。大量无法赴美的欧洲学者,在巴黎自发组织了 CVPR@Paris 2026 平行活动,其讲者名单含金量极高,包括多位 CV 领域顶尖学者,近年来在多模态与视觉大模型领域频出爆款的香港大学李弘扬教授(Hongyang Li)在ICRA、CVPR两大顶会赶场的同时,也受邀成为 CVPR@Paris 2026 的嘉宾,即将登台分享。

这一方面折射出 CVPR 的全球影响力已溢出丹佛会场,另一方面也暗示着:计算机视觉这场“诸神之战”,早已不再局限于某一个地理坐标。
CVPR正会将在当地时间6月5日开始,届时开幕式上也将会颁布一系列奖项,雷峰网将会持续关注。
从 ICRA 的维也纳,到 CVPR 的丹佛,技术的浪潮正在前所未有地加速。
纯视觉如何抹平 Sim-to-Real 的虚实差异?视觉大模型如何学会理解 3D 空间结构与反常识的物理碰撞?VLA 与世界模型的融合终局在哪里?
为了让国内的研发者、创业者与投资人能够毫无时差地掌握本届 CVPR 2026 的完整干货,雷峰网已全面上线【CVPR 2026 深度专区】。
专区不仅全面收录了重磅论文的工程化解读、专家前沿演讲,更将持续更新前方的第一手会议动态。
扫描下方二维码,或点击「阅读原文」关注专区。