原文作者:谭梓馨
原文链接:https://mp.weixin.qq.com/s/llcXE2be4oNWItL_0ydVZw







研究人员与业内其他机器人控制策略进行了对比,域内实验结果显示,单场景仅10条示教样本条件下:DP、DP3仅能勉强完成简单任务,多数场景成功率不足50%,在倒水这类高难度任务上基本失效;OpenVLA整体各项任务表现糟糕,根源在于缺少连续动作块预测机制。

依托预训练与三维点云表征,FP3全部任务成功率突破90%。从实操现象来看,基线算法失败多源于动作精度缺陷:夹取时定位偏差推飞物件、倒水时瓶口对偏等;而FP3凭借大参数量与海量预训练,可精准拟合复杂目标动作,输出轨迹更平滑、控制精度更高,显著优于对比算法。

将机械臂更换至全新环境、使用从未见过的物体开展零样本测试,不含预训练的所有基线策略普遍无法识别目标物体,任务成功率近乎归零。
反观经过预训练的FP3极少出现识别失效,全场景平均成功率超80%,全面碾压对照组。
研究认为优异性能来自两点:一是大规模预训练覆盖海量场景与物件,大幅提升策略鲁棒性;二是点云输入可精准捕获三维几何特征,是实现跨域泛化的关键。

指令跟随测试结果显示,在初始环境完全一致的条件下,使用多条不同文本指令测试FP3与基线策略,FP3可精准依照指令执行对应任务,并非单纯死记训练数据分布。
研究人员在论文中表示,FP3虽作为基座策略模型表现优异,但仍存在若干短板:
第一,FP3下游微调效率与泛化能力突出,但基座原生零样本性能偏弱,诱因大概率是预训练所用DROID数据集体量不及OXE等二维机器人数据集,后续可构建规模更大的三维机器人数据集用于预训练。
第二,FP3仅依靠CLIP嵌入实现语言条件接入,难以表征复杂动态语义;后续可将本扩散架构FP3与视觉大模型VLM融合,搭建类似π0的视觉-语言-动作(VLA)模型;
第三,当前FP3未复用DINOV2、SigLIP等成熟预训练二维视觉编码器,融合三维点云特征与二维图像特征、或将二维特征升维至三维空间具备巨大优化空间,相关研究留作未来工作。

FP3之外,高阳所在的千寻智能今天也官宣了两大进展。
一方面,其自研具身基座模型Spirit v1.6在具身基准测试平台RoboArena中成功登顶,性能超过英伟达Cosmos3与Physical Intelligence Pi0.5,成为首个登顶的中国具身模型。

另一方面,该公司宣布新获15亿元A+轮融资,从2月份至今融资近50亿再次刷新行业纪录。
千寻智能在官宣中表示2026年将积累100万小时级真实世界交互数据的阶段性沉淀,涵盖丰富的长尾复杂场景与多模态操作样本,构筑核心护城河。

在另一份榜单具身智能大规模真机评测平台RoboChallenge的Table30系列任务测试中,千寻智能此前发布的Spirit v1.5目前排名第四,排名第一的是星动纪元Era0模型,其次是原力灵机的DM0和极佳视界的GigaBrain-0.1,模型排位变换之间也见证了中国具身智能创业赛道竞争之激烈。
-END-