对话南佛罗里达大学孙宇教授：当大语言模型用于机器人任务规划丨IJAIRR

机器人大模型任务规划

作者：乔燕薇编辑：任平

2024/03/15 16:03

现代化社会，哪些工作场景最需要机器人的帮助？

在工业领域，有著名的机器人“四大家族”——发那科、ABB、安川、库卡，经过百余年的发展技术越发成熟，在工业场景已经得到深入而广泛的应用。

相比之下，生活场景中的服务型机器人历史则短得多。

例如在餐饮场景，烹饪过程的标准化程度远远不如工厂流水线，这为烹饪机器人的研发带来了很大难度，在烹饪流程、烹饪方式、火候控制等环节，存在着诸多难题。

直到近年来这一方向才逐渐有所发展。

在2022年举办的北京冬奥会上，烹饪机器人已经进入智慧餐厅，烹饪中餐、西餐的各种菜品。

根据国外调研组织Market Research Future 发布的报告，2022年~2026年间，全球机器人烹饪设备的市场规模将成长至超1亿美元，年复合增长率近20%。

南佛罗里达大学计算机科学与工程系教授孙宇多年来一直致力于机器人领域相关研究，早在2015年便已开始尝试将知识图谱应用于机器人任务规划。

大模型技术出现之后，为人机的协同交互带来了巨大的影响。

虽然与小语言模型的模型架构和与训练目标类似，但大语言模型在大幅度扩展了模型大小、预训练数据和总计算量（扩大倍数）后，不但能够更好地理解自然语言，并根据给定的上下文（例如 prompt）生成高质量的文本，还展现出了一项全新的特征：涌现。

涌现为大语言模型带来的几种最具代表性的能力——上下文学习、指令遵循、循序渐进的推理等，使其在机器人研究发挥出更大的作用，大语言模型开始成为机器人任务规划研究中的一项重要工具。

自去年以来，孙宇教授开始尝试将大语言模型应用在烹饪机器人任务规划之中。

近期，相关论文之一《 Consolidating Trees of Robotic Plans Generated Using Large Language Models to Improve Reliability，上线初创期刊《人工智能与机器人研究国际期刊》（IJAIRR）。

借此契机，孙宇教授向雷峰网介绍了该论文的研究过程，以及烹饪机器人研究中存在的难题。

论文链接：

https://gairdao.com/doi/10.1142/S2972335324500029

https://www.worldscientific.com/doi/10.1142/S2972335324500029

基于知识网络的机器人任务规划

机器人任务规划即根据机器人的能力、任务需求及环境条件等因素，为其制定一系列详细的行动方案，使其在复杂的环境中，高效、安全、准确地完成任务。

在这一过程中，有许多复杂的因素需要考虑。

例如，机器人的移动路径需要适应工作环境中障碍物的分布，以避免碰撞；

任务执行的时间与顺序需要根据实际情况进行优化；

在交互方式上，还需要保证机器人的行为与指令易于理解等等。

早在2015年，孙宇教授及其团队就开始将知识网络在机器人任务规划之中，基于网络进行烹饪领域相关知识的采集和整合，指导机器人执行烹饪任务。

对话南佛罗里达大学孙宇教授：当大语言模型用于机器人任务规划丨IJAIRR

南佛罗里达大学孙宇教授

研究中使用的知识网络，正是由孙宇教授所带领的机器人概念和行为实验室（RPAL）所发明的面向功能对象网络（Functional Object-Oriented Network，简称 FOON）。

这是一个存储功能对象和操作信息的中心知识网络系统，可以通过处理在线视频、文本获取功能对象和操作信息。

经过一定的标注和矫正，这个知识网络可以很可靠的提供各种烹饪任务规划树。如果要求的烹饪任务的功能单元（functional unit）是FOON里有的，FOON可以给出100%正确和高效的任务规划树。

如果要求的烹饪任务的功能单元是FOON里没有的，但很相像，这个知识网络可以给出非常可靠高效的任务规划树。

但是如果要求的烹饪功能单元与FOON里功能单元没有任何相关，FOON就很可能给出错误的规划树。因为知识网络是封闭的，机器人无法无限延展超出知识网络范围的内容。

直到大语言模型的出现，为这项研究带来了新的转机。

如何规划一个知识库中完全不存在的任务？

烹饪机器人如何才能生成一个知识库中不存在的任务？

随着大模型技术的发展，自去年以来，孙宇教授及其学生Sadman Sakib博士开始尝试使用大语言模型技术（LLM）进行机器人任务规划。

对话南佛罗里达大学孙宇教授：当大语言模型用于机器人任务规划丨IJAIRR

Sadman Sakib博士

在自然语言处理、任务规划和执行以及人机交互等方面，GPT-4展现出强大的能力。

论文中以烹饪任务为例进行了介绍。

对话南佛罗里达大学孙宇教授：当大语言模型用于机器人任务规划丨IJAIRR

在接收到用户关于烹饪某样食物的指令后，传统的机器人规划方法通常只会生成一个任务计划，而该论文通过GPT-4这一语言模型的提示工程，生成了多个不同的高级任务规划，并以任务树的形式进行展现。

这些任务树为机器人提供了多种可能的执行方案，不同方案的资源需求、并行时间、风险各有不同。

利用Graph Merger（图形合并器）将这些任务树合并成一个统一网络后，再通过比较和分析剔除其中不可靠的组件，例如执行成本过高的节点，再将筛选出的正确、有效的组件进行集成，最终形成一个最优的解决方案，极大地提高了规划的准确性与整体任务执行的效率。

由于机器人无法直接执行高级任务计划，GPT-4还需要扮演翻译者的角色，将这一高级任务计划从自然语言的形式转化为低级的PDDL计划，用PDDL语言来描述并求解规划任务，使人类可以理解的语言转换为机器人可以理解的指令。

例如，当烹饪机器人收到“制作一碗包括胡萝卜、卷心菜和豆子的面条”这一任务后，GPT-4生成了多个高级任务计划，并将其合并、筛选得到一个最优的任务树，将其转化为PDDL计划，把这项工作分解成“拿起瓶子”、“将油葱瓶子中倒进锅里”等动作序列，再由机器人执行。

值得一提的是，孙宇团队通过研究表明，合并食谱可以通过让食谱共享信息并学习多样化的子任务方法，从而发现创新的烹饪方法。

于是研究团队创建了多个食谱及其对应的任务树，并合并为一个网络后，成功将不同食谱中的烹饪步骤和技巧融合在一起，形成了新的烹饪流程。

这些融合后的任务树不仅展示了烹饪任务的多样性，还揭示了不同子任务之间的潜在联系和互补性，构建出了一个更为丰富和复杂的烹饪网络。

“也就是说，有了这个网络，不仅能实现传统菜肴的制作，还能够创造出更加新颖、独特的菜品，为烹饪艺术注入了新的活力。”

孙宇教授指出，对这项研究进一步优化后，将开发出更加高效和智能的烹饪机器人或系统。

大语言模型与知识网络的相互补充

孙宇教授从事机器人领域的研究已二十余年。在USF，孙宇教授带领的机器人概念和行为实验室（RPAL）多年来围绕机器臂抓取和操作、人机交互、医学影像及虚拟现实、机器触觉及力学传感控制等诸多方向进行了大量研究。

后来在机器人任务规划研究中得到大量应用的FOON这一成果，就是出自RPAL。

对话南佛罗里达大学孙宇教授：当大语言模型用于机器人任务规划丨IJAIRR

孙宇教授与RPAL实验室成员合照

大语言模型和知识网络FOON有天然的互补性。以GPT-4为代表的大语言模型，虽然能够从开放的网络环境中学习各种任务规划，但产生的规划却未经把关，无法保证其正确性。

而有FOON里整合的任务规划树是经过人工标注和验证过100%正确的，但是它是有限的和不完全的。

所以可以用大语言模型来产生多个不保证正确的任务树，然后用FOON的结构特点来合并这些任务树，消除不正确的功能单元，由别的树或FOON里正确的功能单元所取代，来提高正确率。

此外，该研究具有很好的泛化能力，并不局限于烹饪场景，只需调整少量组件或不调整组件，即可为许多不同工作场景中的机器人找到最优计划。

孙宇教授指出，当前的机器人任务规划研究中仍旧存在许多挑战。

当机器人遇到任务规划或运动规划错误、系统故障等情况时，可能会导致任务失败，如何使机器人任务失败后自助纠正计划错误是一项至关重要的课题。

团队未来的研究将进一步关注环境反馈的影响，尝试使机器人借助视觉系统与GPT-4准确地识别与更新环境状态，从而减少或避免机器人纠正计划错误时的人为干预，使其自主应对任务失败的情况。雷峰网(公众号：雷峰网)雷峰网