资讯 人工智能
此为临时链接,仅用于文章预览,将在时失效

让机器人行动更有依据:复旦等提出 GuidedVLA,提升 VLA 可控可解释能力

作者:郑佳美
2026/06/08 10:41
让机器人行动更有依据:复旦等提出 GuidedVLA,提升 VLA 可控可解释能力
GuidedVLA:以目标、阶段和空间约束,重塑 VLA 动作生成过程。

    作者丨郑佳美

    编辑丨马晓宁

                                                                                                               

机器人要进入更复杂的真实环境,真正的难点已经超出“能不能完成一个动作”。

更关键的问题是:当桌面变得杂乱、光照发生变化、任务步骤变长,或者目标物体变得透明、难以定位时,机器人能否稳定判断自己该看哪里、该做哪一步、空间位置是否准确。

这也是视觉-语言-动作模型(VLA)正在面对的核心挑战。VLA 可以让机器人根据图像观测和语言指令生成动作,但在很多端到端训练框架中,动作生成过程仍然高度隐式。模型给出了动作,却很难解释它依赖了哪些线索。

对真实机器人来说,可控可解释已经成为走向复杂任务的重要基础。只有知道机器人为什么这样行动,研究者和工程团队才更容易诊断失败、改进模型,并把系统带到更多变化场景中。

围绕这一问题,复旦大学可信具身智能研究院联合上海交通大学、香港大学 OpenDriveLab 等机构提出了 GuidedVLA。该工作已被 Robotics: Science and Systems(RSS)2026 接收,并开放了论文、项目主页、代码、模型权重和数据集。

GuidedVLA 的核心思路可以概括为一句话:在 VLA 的动作生成中加入显式引导,把任务相关因素拆成更清晰、更可检查的分工。

让机器人行动更有依据:复旦等提出 GuidedVLA,提升 VLA 可控可解释能力
让机器人行动更有依据:复旦等提出 GuidedVLA,提升 VLA 可控可解释能力

01


机器人为什么需要“有依据地行动”

过去几年,VLA 成为具身智能研究中的重要路线。它把视觉理解、语言指令和动作生成连接起来:机器人看到环境,理解任务,再输出下一步动作。

这条路线的优势很明显。模型结构更统一,训练方式更简洁,也更容易吸收视觉语言模型中的知识。但它也带来一个现实问题:动作解码器往往需要自己从数据中学习哪些因素真正影响任务成功。

在固定环境中,这种方式可能已经足够。但真实机器人任务很少如此理想。一个水果旁边可能多出干扰物;同一个杯子可能因为光照改变而外观不同;长程任务中,机器人需要知道自己已经完成了抓取,下一步应该移动还是放置;涉及按压、插入、叠放等操作时,二维图像中的语义理解还不够,空间几何也会直接影响成败。

换句话说,机器人在行动前至少要回答三个基础问题:

GuidedVLA 正是围绕这三个问题展开。

让机器人行动更有依据:复旦等提出 GuidedVLA,提升 VLA 可控可解释能力

02


GuidedVLA:把动作生成拆成三类可检查分工

GuidedVLA 延续已有 VLA 框架,并在动作解码器中指定部分注意力头,让它们分别关注三类任务相关因素:目标、步骤和空间。

让机器人行动更有依据:复旦等提出 GuidedVLA,提升 VLA 可控可解释能力

第一类是 Object Head,负责目标定位。它让模型在生成动作时更稳定地关注任务相关物体区域,例如要抓取的物体、要放置的位置,减少背景和干扰物带来的影响。对杂乱桌面、小目标、透明物体等任务来说,看准目标本身就是成功的一半。

第二类是 Skill Head,负责识别任务阶段。真实机器人任务往往包含多个阶段:先抓取,再移动,再放置;先清扫,再收集,再倒入托盘。如果模型不知道当前处在哪个阶段,就容易提前跳步,或在最后阶段失败。Skill Head 的作用,是让动作生成过程对任务进度更敏感。

第三类是 Depth Head,负责补充空间几何。很多操作失败的原因,常常不在物体类别识别,而在高度、距离、插入角度、接触位置不够准确。Depth Head 通过接入冻结深度编码器的特征,让特定注意力头处理更明确的 3D 几何信息。雷峰网(公众号:雷峰网)

这三类分工让 GuidedVLA 的可解释性更具体:研究者除了看到一个动作结果,还能进一步观察模型是否看到了目标、是否理解当前阶段、是否利用了空间线索。

让机器人行动更有依据:复旦等提出 GuidedVLA,提升 VLA 可控可解释能力

03


在已有 VLA 上加入可插拔引导

对已有 VLA 进行改造时,一个关键问题是:新增引导会不会破坏原模型已经学到的能力?

GuidedVLA 采用了类似 ControlNet 的残差适配思路。它保留原有的主注意力分支,同时新增 factor-specific 控制分支,再通过 zero-initialized projection 与主分支融合。直观来说,新分支在训练初期不会直接扰动原模型,随着训练推进,再逐步把目标、步骤、空间等任务相关信息注入动作解码器。

这使 GuidedVLA 更像是在已有 VLA 上增加一层可指定接口,无需从零开始重建系统。

为了降低标注成本,团队还设计了自动因子标注流水线。物体掩码由 Qwen3-VL 生成 point prompts,再用 SAM2 在视频段中传播;技能标签由 Qwen3-VL 根据阶段描述和技能列表生成;深度引导则直接使用冻结深度编码器特征,不需要人工深度标注。

论文中给出的效率数字也很直观:92% 的 episodes 无需人工修正;标注 50 个 episodes 时,自动流水线约需 4 分钟,而纯人工约需 43.5 分钟。

让机器人行动更有依据:复旦等提出 GuidedVLA,提升 VLA 可控可解释能力

04


从仿真基准到真实机器人

GuidedVLA 的实验覆盖仿真基准和真实机器人平台。

在 LIBERO-Plus 上,研究团队评估了模型在相机视角、机器人初态、语言变化、光照、背景纹理、传感器噪声、物体布局等 7 类扰动下的表现。π0 基线总成功率为 68.2;加入三类分工后的 GuidedVLA 达到 75.4。

更值得注意的是,单类分工的优势和任务类型基本对应:Object Head 在物体相关任务上更强,Skill Head 在目标/阶段相关任务上更强,Depth Head 在空间相关任务上更强。这说明这些分工的作用超出了简单增加模型参数,更体现在不同类型问题上的针对性。

在 RoboTwin 2.0 上,GuidedVLA 在 8 个随机化、未见设置的操作任务中,将 π0 平均成功率从 77.38% 提升到 90.63%。例如,Click Bell 需要精确控制 Z 轴,Depth Head 将成功率从 35% 提升到 63%;Beat Hammer Block 需要高度对齐,成功率从 78% 提升到 96%;Lift Pot 涉及严格的抓取、稳定和抬起序列,Skill Head 在该任务上取得单头最佳表现。

让机器人行动更有依据:复旦等提出 GuidedVLA,提升 VLA 可控可解释能力

真实机器人实验覆盖两个双臂平台:ALOHA AgileX 和 PSI-Bot RealMan。前者包括水果蔬菜分拣、叠碗放架、清洁桌面等家庭任务;后者包括将烧杯放入加热套、套叠烧杯、将烧杯放置到加热设置上等实验室操作任务。论文特别说明,这些实验室任务聚焦透明刚性物体和紧几何约束带来的操控挑战,并不评估完整安全关键化学流程。雷峰网

每个任务和模型进行 20 次试验。结果显示,在三类设置下,GuidedVLA 均优于 Base Policy:

让机器人行动更有依据:复旦等提出 GuidedVLA,提升 VLA 可控可解释能力
让机器人行动更有依据:复旦等提出 GuidedVLA,提升 VLA 可控可解释能力

05


可解释性落到数字上

GuidedVLA 进一步验证了一个关键问题:这些可解释分工,是否真的和任务成功相关?

论文从目标、步骤、空间三类因素分别分析。结果显示,当 Object Head 落在目标区域内的注意力比例从 0.25 增加到 1.0,成功率从 61.3% 提升到 77.4%;当 Skill Head 的技能识别准确率提高,成功率从 66.2% 提升到 77.7%;当 Depth Head 中真实深度特征比例从 0 增加到 1.0,成功率从 15.0% 提升到 76.2%。

让机器人行动更有依据:复旦等提出 GuidedVLA,提升 VLA 可控可解释能力

这组分析说明,GuidedVLA 的价值既体现在最终分数提升,也体现在它把“为什么能做得更好”拆成了可观察的中间因素。

对机器人系统来说,这一点很重要。真实环境中的失败往往由多种原因共同造成:可能是目标定位不准,可能是任务阶段错乱,也可能是空间估计不够精确。只有把这些因素拆开,系统才更容易被诊断和持续改进。

让机器人行动更有依据:复旦等提出 GuidedVLA,提升 VLA 可控可解释能力

06


为什么这项工作值得关注

对具身智能来说,模型能力提升很重要,可控可解释同样是走向真实任务的基础能力。

GuidedVLA 给出的启发是:把任务中真正关键的因素显式纳入训练和结构设计,可以减少动作解码器对隐式学习的单一依赖。目标、步骤、空间这三类因素并不复杂,却覆盖了许多机器人操作任务中最常见的失败来源。

从研究角度看,这为 VLA 的动作生成提供了一种更清晰的分析入口。从工程角度看,它也让后续排查和迭代更有抓手:机器人没有完成任务时,研究者可以进一步判断问题出在目标定位、阶段理解,还是空间几何。

这项工作给出了一条务实路线:让机器人不仅做出动作,也让行动过程更有依据。

项目资源

让机器人行动更有依据:复旦等提出 GuidedVLA,提升 VLA 可控可解释能力

长按图片保存图片,分享给好友或朋友圈

正在生成分享图...

取消
相关文章