在刚刚结束的成都大运会闭幕式上,人形机器人“天团”吸引了全球目光。
在第三篇章《梦想·致未来》中,优必选自主研发的人形机器人Walker X骑着平衡车快速行进、急速转圈、高速动作,与舞蹈演员“斗舞”拉开序幕,并触发本次闭幕式的重头戏。
Walker X骑着平衡车环绕舞台,用手指逐一点亮15块移动屏幕,与宋代著名绘画艺术珍品《蜀川胜概图》进行互动。随后4台熊猫机器人优悠上场,手拿风车和自拍杆,与乐队和50多名演员合作。在这个节目中,人形机器人不再是配角,而是成为最瞩目的主角。
这是世界性综合运动会首次在闭幕式采用大型人形机器人,5台人形机器人完成这一系列复杂动作的背后,有哪些技术难题,又隐藏着哪些核心技术?
在大运会闭幕式的舞台上,优必选4台熊猫机器人优悠和1台大型人形机器人Walker X需要在非常复杂的环境中与多名演员进行互动,并自主控制自拍杆、平衡车等设备,全面呈现了丰富的人机交互技术、高难度的平衡控制技术、稳定的步态控制技术、复杂的路径规划技术、多传感器融合的定位技术等多项人形机器人核心技术。
这次优必选为大运会项目专门研发了机器人平衡车,实现了人形机器人控制平衡车。
人形机器人骑平衡车,主要分四步:感知、规划、控制和执行(动作展示)。这个看似简单的流程,实际非常复杂。大运会闭幕式的开放式舞台,更加剧了这个流程的复杂度。
人在骑平衡车时,首先要通过眼睛等感知器官获知自己所处的位置和周边的环境情况,例如自己应该按着哪一条路线前进。这些信息会经由大脑的中枢神经系统进行处理,进而下发动作指令至某个活动执行单元,例如手、脚等,完成具体的动作指令。与此同时,人的身体会基于各种信息进行实时调整力度,比如让自己的重心稍稍前倾,最终实现动态平衡。
与人类似,机器人在执行任务时,第一步便是利用摄像头、激光雷达等传感器识别周围环境,以及IMU(惯性测量单元,用于加速度、角速度和姿态等信息)、轮式里程计(测量平衡车的车轮转动的距离,来计算出机器人的位移),再加上UWB(超宽带)技术来实现无线定位,让机器人知道“自己在哪儿”,从而为其在舞台等复杂环境实现大场景、远距离的精确行走提供导航信息。
这些多传感器的融合,本质上是为了克服单一传感器的局限,提高机器人在复杂环境中的定位精度和鲁棒性,再配合相应的路径规划算法,实现平衡车在舞台上精确稳定的导航和定位。
好比人的多个感官系统,如果只凭借触觉,难免造成盲人摸象,很难形成对事物的整体感知。
要将这些不同传感器采集到的非结构化数据融合在一起并不容易,尤其还要实现毫秒级计算与响应,除了要配备强大算力的芯片以外,对于多数据融合的算法要求也极高。而这些复杂信息数据的处理和计算,只完成了第一步。
接着,当机器人感知到自身位置之后,便要开始规划上下场路径。
在舞台现场,每台熊猫机器人优悠要行走20米,并在1分钟之内完成上下场,以及切换队形。这个过程中比较大的难点在于,队形很难保持一致,并且要求机器人在执行动作时不能互相干扰。
为了克服这个难点,优必选开发出了基于时序的路径规划技术,实现在有限空间内让多台机器人安全、互不干扰地行走。同时,优必选将离线规划的运动里程计与在线反馈定位信息的差值实时引入步态调整中,通过修正行走步长和转向步长的方式,实现机器人上下场轨迹的精确控制,避免机器人出现“拖拉拽”带来的碰撞问题。
感知、规划之后,便是控制与执行。控制是机器人在理解语义任务之后形成的动作,而执行则是具体动作带来的结果展示。比如,机器人跳舞,实际上是机器人控制各个执行单元的效果展示。
由于四台熊猫机器人表演的舞台区域由升降台和一块块木板拼接而成,表演时,舞台会升高1.5m,而且舞台间隙存在高低落差,这对于机器人步态的稳定性和复杂环境的适应性要求极高。让机器人走得稳,也一直是困扰人形机器人的最大难点之一。
优必选大型机器人采用了六维力、IMU、位置、视觉等多种传感器数据,估计机器人自身运动状态和环境信息,并针对复杂地形研发特定的行走算法,同时通过平衡控制器实时在线调整,来解决机器人在不平整地形下行走的稳定性问题。
闭幕式现场,机器人除了与人斗舞,还能与小朋友互动,接过风车、拍照留念等等,为此优必选专门设计了拟人化程度更高的机器人动作,让人形机器人的头部、腰部、手臂动作显得自然流畅。
此外,Walker X在平衡车上进行表演,要求人形机器人进行快速运动以跟上音乐节拍。优必选通过持续的算法优化来寻找最优模型,通过关节空间内的最优路径规划,将人形机器人舞台动作呈现的速度提升了一倍之多。
作为机器人的最终形态,一个能说会道、像人一样走路工作的人形机器人,是人们对机器人的终极理想。
优必选CTO熊友军此前在2023世界人工智能大会演讲中提到,“人形机器人的iPhone时刻已经开启,人形机器人将在人类科技史上留下浓墨重彩的一笔。”
熊友军认为,从工业革命以来,每一个时代都有它的标志性产品,第四次工业革命是智能化的改革,其标志性产品就是人形机器人。人形机器人是一个多任务、通用型的机器人平台,更能适应人类的生存环境,更易使用人类的生产工具,更易与人进行情感交流,人形机器人将赋能各行各业,最终走入家庭。生成式人工智能与人形机器人技术融合后,有望大大提高人形机器人产品迭代速度和提升交互体验,使人形机器人变得更加智能,从而加速走入家庭的进程。
业内一般将人形机器人技术领域的难点归为两方面,一是算法,二是机械结构。
前文曾提到,人形机器人采用多类传感器(视觉、触觉、力传感、编码器等等),这些传感器感知数据的融合,以及规划控制算法,需要不断地测试模型、调优,是一个巨量工程。
在算法做到精准极致的前提下,人形机器人的机械结构亦相当重要,其涉及的零部件,如舵机、伺服器、线束等数量繁杂,对结构设计的紧密性、灵活性要求很高。
例如,人形机器人的“腿”,哪怕只是一条线束发生缠绕,机器人就很可能直接丧失行走能力。
即便算法和机械结构的问题解决了,还有一个至关重要的问题:如何保证人形机器人的鲁棒性,即稳定性。
机器人的鲁棒性,可以简单类比为芯片的良率,一款芯片能不能成熟的商用,在于其良率的高低,良率越高,进入市场的概率越大,反之良率低的芯片,量产规模小且很难推向市场。机器人的鲁棒性越强,意味着其执行任务的能力越稳定,就越具备落地的可能,反之亦然。
不过,这些难题并没有影响人们对人形机器人的关注与热情。作为中国人形机器人的先行者,优必选大型人形机器人Walker 已经更新到第四代,并在央视春晚、深圳经济特区成立40周年晚会、迪拜世博会中国馆等多个重要场景,展示中国人形机器人技术实力。
近两年,特斯拉、小米、三星等国际巨头先后宣布入局人形机器人,特斯拉CEO马斯克甚至表示,未来的人形机器人需求有望达到100亿台。对于人形机器人市场的乐观情绪,从中可见一斑。
现阶段的人形机器人在技术上还有很大的提升空间,但伴随着技术的「涌现」,人形机器人或许将在不久之后迎来一次技术跃迁。
毕竟,在ChatGPT未问世之前,人们也将AI戏谑为人工智障。但如今,通用型人工智能的希望已可以窥见曙光。AI大模型这类底层技术的变革,也将给人工智能行业,包括机器人在内的诸多细分赛道,带来强大的推动力。
具体到人形机器人,以OpenAI为代表的大模型、Meta的SAM模型等,让机器人在视觉识别物体、理解场景语义等方面更具智能,尤其在人机交互领域,其智能化程度将得到大幅提升。
技术反哺到产业,当人形机器人愈发智能,具备落地到生活场景的可能性时,整个产业链也将随之变化。市场需求从下往上反馈至厂商,倒逼供应链升级完善,以及相关技术的优化提升;相关零部件的成本也将下探,从而自上而下推动人形机器人更广泛的商业化落地。
在落地应用方面,优必选人形机器人聚焦于教育、智能制造、商用服务等领域,先后在沙特NEOM新未来城、中国科学技术馆、AI教育培训基地等场景应用落地,在智慧化的工厂,优必选正在尝试用人形机器人进行智能分拣、老化测试等工作。
要真正让人形机器人走入家庭,仍有一些技术难点需要克服。在熊友军看来,人形机器人的量产将会分三步走:第一步是在结构化、可控环境中的小批量试用和进化,完成一些简单任务;第二步是在非结构化、可控环境中训练和进化,进一步提升运动、感知和决策能力;待与之适配的人工智能技术逐步成熟、制造工艺趋于稳定、成本也大幅降低后,人形机器人大规模量产就水到渠成了。
大运会闭幕现场,Walker X和熊猫机器人优悠表演结束之后,迎来了大运会会旗的交接仪式。万众瞩目下,大运会被主办方交接给号称“世界制造业标杆”的德国,下一届东道主德国开始show time。这意味着由中国制造的人形机器人开启“德国时间”。
作为老牌的工业大国,德国的制造业水平首屈一指,中国则是新兴的工业大国,其供应链和制造业水平也不遑多让。
人形机器人是现代工业制造的一颗明珠,其代表着制造业、先进科技的技术水平。在这个全世界目光聚焦的时刻,中国原创人形机器人为“智慧大运”划下完美句号,也向世界展示了中国人形机器人的发展水平、技术实力和产业能力。雷峰网(公众号:雷峰网)雷峰网