大模型一声炮响,掀起了机器人的革命浪潮。
这一变革率先发生在人机交互上。以ChatGPT为代表的LLM模型第一次在人与机器间建立起高效的沟通方式,从根本上打破人机之间的语义隔离,进而赋予机器人快速向人类学习的能力,使其以更快地速度学习并执行相关任务。
传统的人机交互模式,机器人只能机械地执行人类设定好的程序。这一模式局限性非常大。比如,需要有专业的工程师将知识“翻译”给机器人,机器人才能执行具体任务,沟通效率低且人力成本极高,限制了机器人的落地应用。
在大模型强大的理解能力加持下,机器人能更智能地“听懂人话”。人机交互不再需要专业的知识门槛,可以用自然语言、肢体动作等类人行为进行交流,大幅降低人类使用机器人的门槛,进而使得机器人的广泛落地变成可能。
“机器人融入大模型是发展趋势。”全国机器人标准化技术委员会委员赵勇表示。
作为AI技术的进阶态,大模型强大的泛化能力,让机器人在“类人”的道路上更进一步。如果把机器人视为一个智能体,大模型则是这个智能体的技术底座,为机器人走向「具身智能」奠定了基础。
如今,大模型在机器人领域的应用正在不断拓展,各行各业正面临一次“重铸”。其中,工业机器人作为应用较为广泛的品类,也迎来了一次深刻技术与范式蝶变。微亿智造CTO赵何博士以具身智能理论作为指导,将成熟的工业机器人与新兴的人工智能技术融合,首次提出了“具身智能工业机器人”(Embodied Intelligent Industrial Robots, EIIR)这一概念。至此,EIIR正式走上了历史舞台。
理解EIIR之前,首先要搞清楚,什么是具身智能,以及什么是具身智能机器人。
具身智能理论根源于“具身认知”,其主张智能体的认知能力由其自身结构决定,这种认知又直接反过来影响智能体的高级心理活动,诸如:推理,决策等。并且,智能体根据自身的躯体结构来构建自己的世界模型,从认知产生的机制到智能体决策依赖的世界模型,均受制于智能体具体的物质形态。
比如,婴儿早期的学习行为,例如爬、抓取、行走等,本质上是智能体在主动探索周边环境,来形成对外界的认知,并构建基础的世界模型,形成了一套普适的方法论。
智能体的认知过程遵循"探索﹣利用"( exploration - exploitation )的范式,通过自己的"躯体"与外界环境进行互动,从外界对智能体的动作产生反馈获取信息,建立起自身的认知模式。
在具体系统构成方面,智能体核心包括三部分:感知系统、运动系统和世界模型。与传统认知不同,感知和运动系统并不孤立,二者同样参与认知过程,世界模型则是智能体基于自身结构特点而构建,用于解释世界的认知框架。
如果将这一理论应用到机器人行业,理论与技术相结合,便产生了具身智能机器人(EIR)。可以预见,未来所有机器人都将面临一次「范式变革」。从第一性原理出发,具身智能机器人存在诸多共性,主要体现为五大能力,分别是——
1、多模态环境认知、交互能力;
2、智能的任务学习和理解能力;
3、高度自主的智能决策能力;
4、智能高效的单任务执行能力;
5、多任务切换能力。
这些能力构成了具身智能机器人的基础。在具身智能理论框架下,“智能体”和“环境”是矛盾的两个方面,它们之间的对立统产生了智能体的认知,孵化了智能。因此,从一开始设计机器人时,不能把机器人从任务环境中剥离出来。
当这一理论被应用于工业,具身智能工业机器人(EIIR)便呼之欲出了。作为EIR在工业场景下的外延,EIIR的生存环境,无容置疑就是工业生产环境。
过去几年,AI技术的应用,从某种程度上推动了工业机器人的智能化提升。
比如,图像识别技术在图像分类、目标检测和图像生成方面取得的长足进步,使得计算机对图像的识别理解能力已经超越了人类,对应的技术被应用到工业质检这一环节中,大幅提高了企业生产制造的质检效率和质量。
又比如,Slam算法被用于机器人导航,通过计算机视觉和机器视觉等技术,从而提高工业AGV/AMR的灵活度,最终提高运输效率,降低人力成本。
而今,在以大模型为代表的AI技术赋能下,具身智能工业机器人(EIIR)成为工业机器人的新方向。
“EIIR可以理解为EIR在工业场景的外延,但形态并非是人形。”微亿智造CTO赵何博士表示。
EIIR的生存环境就是工业生产环境。相对于自然环境,生产环境是一个闭合、简单的环境。从逻辑上讲,“人形”作为开放环境下的产物天然不会是闭合环境最佳的躯体形态。而且,人在很多工业场景存在天然的“缺陷”,在灵活度、精准度上,很难与机器相提并论。如果可以由机器自主完成而不需要人的参与,那么对应的生产环境可以设计成对机器更加友好,而完全不用考虑人类体形的局限,从而让生产过程更加高效可靠。
EIIR需要替代的是人在生产过程中被异化后的投影,不是人的本质,更不是人的外形。将人类从生产活动中解放出来,必然存在多种形态。因此,“EIIR和人形机器人并不能直接划等号”。
EIIR本质上,目的是“超越人”和“解放人”。相比精确的自动化控制,EIIR可以更好的实现真正的无人化生产。
原因主要有三点——
一是生产场景的不确定性。整个工业环境,场景非常多样化,存在诸多不确定性,属于定量开放环境,需要有EIIR这类具备灵活智能能力的机器人来应对。
二是生产环境闭合边界不一。不同生产任务都有与之对应确定的生产环境,它们之间闭合边界不具备一致性。这就要求足够高的智能水平或在少量人类帮助下,完成这种环境的切换和适应。
三是标准产品具有标准智能。使得标准的EIIR产品具有一定水平的标准智能,不仅能减少 EIIR 从制造到应用的成本,并尽可能的适用于不同生产场景、适配具体任务,使其大规模应用成为可能。
一言以蔽之,EIIR的出现是市场环境与技术迭代共同作用的结果,又将反过来解决市场痛点。在这个相互作用的过程中,机器人能够实现“自我进化”,成为新的生产工具,进一步推动社会生产力的发展。
作为具身智能的实体表现形式之一,EIIR必然遵循具身智能的一般规律,整个智能体由感知系统、运动系统和世界模型三部分组成。
感知系统
EIIR 的感知系统是一个多模态泛传感器系统。该系统配备多种传感器,具备比人类感知器官更精准的信息收集能力。这些信息相互补充、交叉验证,为EIIR的决策提供输入信息。并且,感知系统除了对周边环境进行连续动态检测以外,还要对自身进行不间断地状态感知,为EIIR的决策、与环境的互动提供感知基础。
例如,在工业质检领域,传统的机器质检虽然能够大幅提高检测效率,但模型依赖于工程师的不断调优,柔性较差,部署成本也比较高。而EIIR则能够识别和分析对象的姿态和特征,自主生成检测序列,以高精度的图像传感器追踪形态不定、位置不定的缺陷,实现柔性的、超越人类的缺陷检测能力。
通过“感知系统”,对环境及自身持续采样,并基于联合认知进行决策
运动系统
EIIR 的运动系统首先是一个闭环控制系统,其一般原理是通过反馈环路,比较被控状态量的实际值和设定值之间的误差,作为输入送到控制器进行计算,控制器的输出控制执行器动作,直到被控量的实际值达到设定值为止。EIIR 的运动系统会包含很多个这样的闭环控制系统,这些系统必须共同协作才能满足 EIIR 灵活、精准、快速的要求。
以“关节电机”为例,其“视觉伺服”系统由多个控制器、按层级嵌套组合而成,每一层都有自身需要优化的控制指标与对象。只有从整体到局部逐层细化,才能实现闭环控制。EIIR能够根据控制系统,实时地结合动力学、运动学算法,计算时间和状态最优的运动轨迹,并以毫秒级速度闭环运动控制、使用图像模型,完成闭环运动规划。
通过“视觉伺服”,实现感知系统与运动系统的闭环控制
世界模型
世界模型是智能体根据自身结构特点构建起来、用于解释世界的认知框架,会随着智能体与环境的互动而动态变化。该模型由以大模型技术为主的“基础模型”叠加智能体在面临具体任务时的知识形成,二者通过“探索-利用”的范式构建起一个服务于具体任务的世界模型。
更具体一点,“基础模型”赋予了EIIR强大的理解能力,能够通过人类习惯的模式与人类进行信息交换。人类只需输入自然语言、图片、视频、动作示教等知识,就可与EIIR建立起“示教-学习-反馈”的互动模式,将知识进行传递。如此一来,EIIR在基础模型和具体任务知识的训练下,通过不断地自我学习和进化,便能实现独立运行。
通过“基础世界模型”,建立“示教-学习-反馈”的互动模式
“具身智能工业机器人(EIIR)是现代制造业的杰出代表,它们通过高度的自动化和智能化,极大地提升了生产效率和质量。”中国信通院华东分院、人工智能与大数据事业部主任陈俊琰表示,“随着多模态大模型、人机自然交互等技术的进步,EIIR够适应更复杂的工作环境,进行自我学习和优化,是“人工智能+”的积极探索实践,也为工业生产带来革命性的变化。”
EIIR 的发展将是一个循序渐进的过程,将主要分三个阶段——
前期。EIIR 和人类共处在同一个生产环境下,人机协同是 EIIR 需要重点解决的问题。
中期。在新技术的赋能下,EIIR的人机交互水平提高,人机协作更加高效智能。但在这个阶段,EIIR 本质上还是附属于人类的智能机器。
后期。EIIR 的智能化程度越来越高,能够独立完成任务,人类逐渐淡出生产环境,“无人工厂”将得以实现。
这也将会是一个漫长的过程,但技术已经点亮了胜利的火焰。雷峰网(公众号:雷峰网)雷峰网