工业机器人的「范式变革」：从程序设定到「具身智能」

机器人工业机器人具身智能

作者：高秀松

2024/06/25 10:51

大模型一声炮响，掀起了机器人的革命浪潮。

这一变革率先发生在人机交互上。以ChatGPT为代表的LLM模型第一次在人与机器间建立起高效的沟通方式，从根本上打破人机之间的语义隔离，进而赋予机器人快速向人类学习的能力，使其以更快地速度学习并执行相关任务。

传统的人机交互模式，机器人只能机械地执行人类设定好的程序。这一模式局限性非常大。比如，需要有专业的工程师将知识“翻译”给机器人，机器人才能执行具体任务，沟通效率低且人力成本极高，限制了机器人的落地应用。

在大模型强大的理解能力加持下，机器人能更智能地“听懂人话”。人机交互不再需要专业的知识门槛，可以用自然语言、肢体动作等类人行为进行交流，大幅降低人类使用机器人的门槛，进而使得机器人的广泛落地变成可能。

“机器人融入大模型是发展趋势。”全国机器人标准化技术委员会委员赵勇表示。

作为AI技术的进阶态，大模型强大的泛化能力，让机器人在“类人”的道路上更进一步。如果把机器人视为一个智能体，大模型则是这个智能体的技术底座，为机器人走向「具身智能」奠定了基础。

如今，大模型在机器人领域的应用正在不断拓展，各行各业正面临一次“重铸”。其中，工业机器人作为应用较为广泛的品类，也迎来了一次深刻技术与范式蝶变。微亿智造CTO赵何博士以具身智能理论作为指导，将成熟的工业机器人与新兴的人工智能技术融合，首次提出了“具身智能工业机器人”（Embodied Intelligent Industrial Robots, EIIR）这一概念。至此，EIIR正式走上了历史舞台。

范式革命：从探索到利用

理解EIIR之前，首先要搞清楚，什么是具身智能，以及什么是具身智能机器人。

具身智能理论根源于“具身认知”，其主张智能体的认知能力由其自身结构决定，这种认知又直接反过来影响智能体的高级心理活动，诸如：推理，决策等。并且，智能体根据自身的躯体结构来构建自己的世界模型，从认知产生的机制到智能体决策依赖的世界模型，均受制于智能体具体的物质形态。

比如，婴儿早期的学习行为，例如爬、抓取、行走等，本质上是智能体在主动探索周边环境，来形成对外界的认知，并构建基础的世界模型，形成了一套普适的方法论。

智能体的认知过程遵循"探索﹣利用"( exploration - exploitation ）的范式，通过自己的"躯体"与外界环境进行互动，从外界对智能体的动作产生反馈获取信息，建立起自身的认知模式。

在具体系统构成方面，智能体核心包括三部分：感知系统、运动系统和世界模型。与传统认知不同，感知和运动系统并不孤立，二者同样参与认知过程，世界模型则是智能体基于自身结构特点而构建，用于解释世界的认知框架。

如果将这一理论应用到机器人行业，理论与技术相结合，便产生了具身智能机器人（EIR）。可以预见，未来所有机器人都将面临一次「范式变革」。从第一性原理出发，具身智能机器人存在诸多共性，主要体现为五大能力，分别是——

1、多模态环境认知、交互能力；
2、智能的任务学习和理解能力；
3、高度自主的智能决策能力；
4、智能高效的单任务执行能力；
5、多任务切换能力。

这些能力构成了具身智能机器人的基础。在具身智能理论框架下，“智能体”和“环境”是矛盾的两个方面，它们之间的对立统产生了智能体的认知，孵化了智能。因此，从一开始设计机器人时，不能把机器人从任务环境中剥离出来。

当这一理论被应用于工业，具身智能工业机器人（EIIR）便呼之欲出了。作为EIR在工业场景下的外延，EIIR的生存环境，无容置疑就是工业生产环境。

EIIR进入工厂：但形态并非人形

过去几年，AI技术的应用，从某种程度上推动了工业机器人的智能化提升。

比如，图像识别技术在图像分类、目标检测和图像生成方面取得的长足进步，使得计算机对图像的识别理解能力已经超越了人类，对应的技术被应用到工业质检这一环节中，大幅提高了企业生产制造的质检效率和质量。

又比如，Slam算法被用于机器人导航，通过计算机视觉和机器视觉等技术，从而提高工业AGV/AMR的灵活度，最终提高运输效率，降低人力成本。

而今，在以大模型为代表的AI技术赋能下，具身智能工业机器人（EIIR）成为工业机器人的新方向。

“EIIR可以理解为EIR在工业场景的外延，但形态并非是人形。”微亿智造CTO赵何博士表示。

EIIR的生存环境就是工业生产环境。相对于自然环境，生产环境是一个闭合、简单的环境。从逻辑上讲，“人形”作为开放环境下的产物天然不会是闭合环境最佳的躯体形态。而且，人在很多工业场景存在天然的“缺陷”，在灵活度、精准度上，很难与机器相提并论。如果可以由机器自主完成而不需要人的参与，那么对应的生产环境可以设计成对机器更加友好，而完全不用考虑人类体形的局限，从而让生产过程更加高效可靠。

EIIR需要替代的是人在生产过程中被异化后的投影，不是人的本质，更不是人的外形。将人类从生产活动中解放出来，必然存在多种形态。因此，“EIIR和人形机器人并不能直接划等号”。

EIIR本质上，目的是“超越人”和“解放人”。相比精确的自动化控制，EIIR可以更好的实现真正的无人化生产。

原因主要有三点——

一是生产场景的不确定性。整个工业环境，场景非常多样化，存在诸多不确定性，属于定量开放环境，需要有EIIR这类具备灵活智能能力的机器人来应对。
二是生产环境闭合边界不一。不同生产任务都有与之对应确定的生产环境，它们之间闭合边界不具备一致性。这就要求足够高的智能水平或在少量人类帮助下，完成这种环境的切换和适应。
三是标准产品具有标准智能。使得标准的EIIR产品具有一定水平的标准智能，不仅能减少 EIIR 从制造到应用的成本，并尽可能的适用于不同生产场景、适配具体任务，使其大规模应用成为可能。

一言以蔽之，EIIR的出现是市场环境与技术迭代共同作用的结果，又将反过来解决市场痛点。在这个相互作用的过程中，机器人能够实现“自我进化”，成为新的生产工具，进一步推动社会生产力的发展。

EIIR三大要素：感知系统、运动系统，与世界模型

作为具身智能的实体表现形式之一，EIIR必然遵循具身智能的一般规律，整个智能体由感知系统、运动系统和世界模型三部分组成。

感知系统

EIIR 的感知系统是一个多模态泛传感器系统。该系统配备多种传感器，具备比人类感知器官更精准的信息收集能力。这些信息相互补充、交叉验证，为EIIR的决策提供输入信息。并且，感知系统除了对周边环境进行连续动态检测以外，还要对自身进行不间断地状态感知，为EIIR的决策、与环境的互动提供感知基础。

例如，在工业质检领域，传统的机器质检虽然能够大幅提高检测效率，但模型依赖于工程师的不断调优，柔性较差，部署成本也比较高。而EIIR则能够识别和分析对象的姿态和特征，自主生成检测序列，以高精度的图像传感器追踪形态不定、位置不定的缺陷，实现柔性的、超越人类的缺陷检测能力。

工业机器人的「范式变革」：从程序设定到「具身智能」

通过“感知系统”，对环境及自身持续采样，并基于联合认知进行决策

运动系统

EIIR 的运动系统首先是一个闭环控制系统，其一般原理是通过反馈环路，比较被控状态量的实际值和设定值之间的误差，作为输入送到控制器进行计算，控制器的输出控制执行器动作，直到被控量的实际值达到设定值为止。EIIR 的运动系统会包含很多个这样的闭环控制系统，这些系统必须共同协作才能满足 EIIR 灵活、精准、快速的要求。

以“关节电机”为例，其“视觉伺服”系统由多个控制器、按层级嵌套组合而成，每一层都有自身需要优化的控制指标与对象。只有从整体到局部逐层细化，才能实现闭环控制。EIIR能够根据控制系统，实时地结合动力学、运动学算法，计算时间和状态最优的运动轨迹，并以毫秒级速度闭环运动控制、使用图像模型，完成闭环运动规划。

工业机器人的「范式变革」：从程序设定到「具身智能」

通过“视觉伺服”，实现感知系统与运动系统的闭环控制

世界模型

世界模型是智能体根据自身结构特点构建起来、用于解释世界的认知框架，会随着智能体与环境的互动而动态变化。该模型由以大模型技术为主的“基础模型”叠加智能体在面临具体任务时的知识形成，二者通过“探索-利用”的范式构建起一个服务于具体任务的世界模型。

更具体一点，“基础模型”赋予了EIIR强大的理解能力，能够通过人类习惯的模式与人类进行信息交换。人类只需输入自然语言、图片、视频、动作示教等知识，就可与EIIR建立起“示教-学习-反馈”的互动模式，将知识进行传递。如此一来，EIIR在基础模型和具体任务知识的训练下，通过不断地自我学习和进化，便能实现独立运行。

工业机器人的「范式变革」：从程序设定到「具身智能」

通过“基础世界模型”，建立“示教-学习-反馈”的互动模式

结语：EIIR，未来已来

“具身智能工业机器人（EIIR）是现代制造业的杰出代表，它们通过高度的自动化和智能化，极大地提升了生产效率和质量。”中国信通院华东分院、人工智能与大数据事业部主任陈俊琰表示，“随着多模态大模型、人机自然交互等技术的进步，EIIR够适应更复杂的工作环境，进行自我学习和优化，是“人工智能+”的积极探索实践，也为工业生产带来革命性的变化。”

EIIR 的发展将是一个循序渐进的过程，将主要分三个阶段——
前期。EIIR 和人类共处在同一个生产环境下，人机协同是 EIIR 需要重点解决的问题。
中期。在新技术的赋能下，EIIR的人机交互水平提高，人机协作更加高效智能。但在这个阶段，EIIR 本质上还是附属于人类的智能机器。

后期。EIIR 的智能化程度越来越高，能够独立完成任务，人类逐渐淡出生产环境，“无人工厂”将得以实现。

这也将会是一个漫长的过程，但技术已经点亮了胜利的火焰。雷峰网(公众号：雷峰网)雷峰网