让机器人行动更有依据：复旦等提出 GuidedVLA，提升 VLA 可控可解释能力

RSS 具身智能复旦大学

作者：郑佳美

2026/06/08 10:41

让机器人行动更有依据：复旦等提出 GuidedVLA，提升 VLA 可控可解释能力

GuidedVLA：以目标、阶段和空间约束，重塑 VLA 动作生成过程。

作者丨郑佳美

编辑丨马晓宁

机器人要进入更复杂的真实环境，真正的难点已经超出“能不能完成一个动作”。

更关键的问题是：当桌面变得杂乱、光照发生变化、任务步骤变长，或者目标物体变得透明、难以定位时，机器人能否稳定判断自己该看哪里、该做哪一步、空间位置是否准确。

这也是视觉-语言-动作模型（VLA）正在面对的核心挑战。VLA 可以让机器人根据图像观测和语言指令生成动作，但在很多端到端训练框架中，动作生成过程仍然高度隐式。模型给出了动作，却很难解释它依赖了哪些线索。

对真实机器人来说，可控可解释已经成为走向复杂任务的重要基础。只有知道机器人为什么这样行动，研究者和工程团队才更容易诊断失败、改进模型，并把系统带到更多变化场景中。

围绕这一问题，复旦大学可信具身智能研究院联合上海交通大学、香港大学 OpenDriveLab 等机构提出了 GuidedVLA。该工作已被 Robotics: Science and Systems（RSS）2026 接收，并开放了论文、项目主页、代码、模型权重和数据集。

GuidedVLA 的核心思路可以概括为一句话：在 VLA 的动作生成中加入显式引导，把任务相关因素拆成更清晰、更可检查的分工。

机器人为什么需要“有依据地行动”

过去几年，VLA 成为具身智能研究中的重要路线。它把视觉理解、语言指令和动作生成连接起来：机器人看到环境，理解任务，再输出下一步动作。

这条路线的优势很明显。模型结构更统一，训练方式更简洁，也更容易吸收视觉语言模型中的知识。但它也带来一个现实问题：动作解码器往往需要自己从数据中学习哪些因素真正影响任务成功。

在固定环境中，这种方式可能已经足够。但真实机器人任务很少如此理想。一个水果旁边可能多出干扰物；同一个杯子可能因为光照改变而外观不同；长程任务中，机器人需要知道自己已经完成了抓取，下一步应该移动还是放置；涉及按压、插入、叠放等操作时，二维图像中的语义理解还不够，空间几何也会直接影响成败。

换句话说，机器人在行动前至少要回答三个基础问题：

目标是谁？
现在做到哪一步？
空间位置准不准？

GuidedVLA 正是围绕这三个问题展开。

GuidedVLA：把动作生成拆成三类可检查分工

GuidedVLA 延续已有 VLA 框架，并在动作解码器中指定部分注意力头，让它们分别关注三类任务相关因素：目标、步骤和空间。

第一类是 Object Head，负责目标定位。它让模型在生成动作时更稳定地关注任务相关物体区域，例如要抓取的物体、要放置的位置，减少背景和干扰物带来的影响。对杂乱桌面、小目标、透明物体等任务来说，看准目标本身就是成功的一半。

第二类是 Skill Head，负责识别任务阶段。真实机器人任务往往包含多个阶段：先抓取，再移动，再放置；先清扫，再收集，再倒入托盘。如果模型不知道当前处在哪个阶段，就容易提前跳步，或在最后阶段失败。Skill Head 的作用，是让动作生成过程对任务进度更敏感。

第三类是 Depth Head，负责补充空间几何。很多操作失败的原因，常常不在物体类别识别，而在高度、距离、插入角度、接触位置不够准确。Depth Head 通过接入冻结深度编码器的特征，让特定注意力头处理更明确的 3D 几何信息。雷峰网

这三类分工让 GuidedVLA 的可解释性更具体：研究者除了看到一个动作结果，还能进一步观察模型是否看到了目标、是否理解当前阶段、是否利用了空间线索。

在已有 VLA 上加入可插拔引导

对已有 VLA 进行改造时，一个关键问题是：新增引导会不会破坏原模型已经学到的能力？

GuidedVLA 采用了类似 ControlNet 的残差适配思路。它保留原有的主注意力分支，同时新增 factor-specific 控制分支，再通过 zero-initialized projection 与主分支融合。直观来说，新分支在训练初期不会直接扰动原模型，随着训练推进，再逐步把目标、步骤、空间等任务相关信息注入动作解码器。

这使 GuidedVLA 更像是在已有 VLA 上增加一层可指定接口，无需从零开始重建系统。

为了降低标注成本，团队还设计了自动因子标注流水线。物体掩码由 Qwen3-VL 生成 point prompts，再用 SAM2 在视频段中传播；技能标签由 Qwen3-VL 根据阶段描述和技能列表生成；深度引导则直接使用冻结深度编码器特征，不需要人工深度标注。

论文中给出的效率数字也很直观：92% 的 episodes 无需人工修正；标注 50 个 episodes 时，自动流水线约需 4 分钟，而纯人工约需 43.5 分钟。

从仿真基准到真实机器人

GuidedVLA 的实验覆盖仿真基准和真实机器人平台。

在 LIBERO-Plus 上，研究团队评估了模型在相机视角、机器人初态、语言变化、光照、背景纹理、传感器噪声、物体布局等 7 类扰动下的表现。π0 基线总成功率为 68.2；加入三类分工后的 GuidedVLA 达到 75.4。

更值得注意的是，单类分工的优势和任务类型基本对应：Object Head 在物体相关任务上更强，Skill Head 在目标/阶段相关任务上更强，Depth Head 在空间相关任务上更强。这说明这些分工的作用超出了简单增加模型参数，更体现在不同类型问题上的针对性。

在 RoboTwin 2.0 上，GuidedVLA 在 8 个随机化、未见设置的操作任务中，将 π0 平均成功率从 77.38% 提升到 90.63%。例如，Click Bell 需要精确控制 Z 轴，Depth Head 将成功率从 35% 提升到 63%；Beat Hammer Block 需要高度对齐，成功率从 78% 提升到 96%；Lift Pot 涉及严格的抓取、稳定和抬起序列，Skill Head 在该任务上取得单头最佳表现。

真实机器人实验覆盖两个双臂平台：ALOHA AgileX 和 PSI-Bot RealMan。前者包括水果蔬菜分拣、叠碗放架、清洁桌面等家庭任务；后者包括将烧杯放入加热套、套叠烧杯、将烧杯放置到加热设置上等实验室操作任务。论文特别说明，这些实验室任务聚焦透明刚性物体和紧几何约束带来的操控挑战，并不评估完整安全关键化学流程。雷峰网(公众号：雷峰网)

每个任务和模型进行 20 次试验。结果显示，在三类设置下，GuidedVLA 均优于 Base Policy：

In-Domain average：Base Policy 55.8%，GuidedVLA 75.8%。
Scene average：Base Policy 44.2%，GuidedVLA 67.5%，相对提升约 52.7%。
Lighting average：Base Policy 57.5%，GuidedVLA 79.2%。

可解释性落到数字上

GuidedVLA 进一步验证了一个关键问题：这些可解释分工，是否真的和任务成功相关？

论文从目标、步骤、空间三类因素分别分析。结果显示，当 Object Head 落在目标区域内的注意力比例从 0.25 增加到 1.0，成功率从 61.3% 提升到 77.4%；当 Skill Head 的技能识别准确率提高，成功率从 66.2% 提升到 77.7%；当 Depth Head 中真实深度特征比例从 0 增加到 1.0，成功率从 15.0% 提升到 76.2%。

这组分析说明，GuidedVLA 的价值既体现在最终分数提升，也体现在它把“为什么能做得更好”拆成了可观察的中间因素。

对机器人系统来说，这一点很重要。真实环境中的失败往往由多种原因共同造成：可能是目标定位不准，可能是任务阶段错乱，也可能是空间估计不够精确。只有把这些因素拆开，系统才更容易被诊断和持续改进。

为什么这项工作值得关注

对具身智能来说，模型能力提升很重要，可控可解释同样是走向真实任务的基础能力。

GuidedVLA 给出的启发是：把任务中真正关键的因素显式纳入训练和结构设计，可以减少动作解码器对隐式学习的单一依赖。目标、步骤、空间这三类因素并不复杂，却覆盖了许多机器人操作任务中最常见的失败来源。

从研究角度看，这为 VLA 的动作生成提供了一种更清晰的分析入口。从工程角度看，它也让后续排查和迭代更有抓手：机器人没有完成任务时，研究者可以进一步判断问题出在目标定位、阶段理解，还是空间几何。

这项工作给出了一条务实路线：让机器人不仅做出动作，也让行动过程更有依据。

项目资源

论文：GuidedVLA: Specifying Task-Relevant Factors via Plug-and-Play Action Attention Specialization
会议：Robotics: Science and Systems（RSS）2026
arXiv：https://arxiv.org/abs/2605.12369
项目主页：https://guidedvla.github.io/project_page/
代码：https://github.com/GuidedVLA/GuidedVLA
模型权重：https://huggingface.co/ybwowen/pi0-libero-object-depth-skill
数据集：https://huggingface.co/datasets/ybwowen/libero
作者：Xiaosong Jia, Bowen Yang, Zuhao Ge, Xian Nie, Yuchen Zhou, Cunxin Fan, Yufeng Li, Yilin Chai, Chao Jing, Zijian Liang, Qingwen Bu, Haidong Cao, Chao Wu, Qifeng Li, Zhenjie Yang, Chenhe Zhang, Hongyang Li, Zuxuan Wu, Junchi Yan, Yu-Gang Jiang
机构：Institute of Trustworthy Embodied AI (TEAI), Fudan University；Shanghai Key Laboratory of Multimodal Embodied AI；Shanghai Jiao Tong University；OpenDriveLab, The University of Hong Kong

让机器人行动更有依据：复旦等提出 GuidedVLA，提升 VLA 可控可解释能力