专访优必选庞建新：在大模型时代推动机器人智能化｜GAIR live

人形机器人优必选大模型

作者：吴彤

2024/04/03 15:44

“大模型怎么融进人形机器人里？”这是庞建新最近一直在琢磨的核心问题。

作为优必选副总裁、研究院副院长，庞建新正领导团队，将大模型技术应用于人形机器人的多模态感知和决策规划中，提升人形机器人智能化水平。

在从业的近三十年里，他的专业背景横跨语音处理、计算机视觉，再到人形机器人技术；从中科大的博士，到中国科学院深圳先进技术研究院的PI，再到优必选的技术高管，他的职业生涯，已然是中国智能科技崛起的一个缩影。

现如今，大模型的横空出世，除了让庞建新看到了一些可能性，更多是冷静。

他坦陈，“因为在技术快速发展时，整个技术路线和应用场景还存在不确定性，但同时也正是国内人形机器人企业快速发展的最佳时期。”

这是一种强烈的矛盾感。

在谈及大模型技术对人形机器人智能化进程的影响时，庞建新提出了自己的见解。

他认为，大模型技术的核心是其能够融合大量知识和数据，这对于人形机器人领域来说是一个巨大的机遇，但同时也带来了新的挑战。比如如何将大语言模型技术（可理解为“大脑”）与人形机器人的“小脑”（控制大模型）和“本体”结合，以及如何处理大语言模型可能产生的“幻觉”问题等等。

而要落到实际操作层面，庞建新表示，优必选的策略是双管齐下，既要一种分层结构的解决方案，同时也不能放弃端到端的解决方案。

前者是将大模型分为处理知识、常识推理的“大脑”层，指导动作规划的“小脑”层，以及直接与控制相结合的动作执行层。这种分层解耦的方法，使得每一层都可以专注于其特定的任务和数据需求，提高了技术的应用效率。

后者则是从感知直接到控制的全过程，这种方法导致数据获取更为复杂，却能够提供更为直接的解决方案。

针对大模型与机器人智能化现状，庞建新说了四个字：百花齐放。

“当下人工智能和人形机器人技术的结合正处于一个开放性问题的时期。”这正是当下人形机器人从业者的乐趣所在。而换句话说，这也意味着目前技术尚未开始收敛，仍需在一些小规模场景中进行实验和测试。

今年2月，优必选与新能源车厂的合作，正是他们在多模态感知决策技术应用实训方面的一次尝试。庞建新坚信，大模型技术将是推动未来技术进步和产业化的关键。

近期在与雷峰网-AI科技评论的对话中，庞建新分享他对于大模型技术推动人形机器人智能化进程的见解，以及国内企业如何在技术快速发展的背景下把握机遇。

以下为对话（经编辑）：

4月8日（周一）20:00-22:00，雷峰网将举办主题为「大模型时代，机器人的技术革新与场景落地」的线上圆桌论坛，届时庞博士将分享更多前沿观察。

01 寻找最适合机器人的大模型

雷峰网：首先请问庞博，您的团队目前在AI+人形机器人领域有哪些探索，有哪些不错的技术成果可以分享？

庞建新：我们确实有一些颇具前瞻性的课题项目，在近期进展不错。

众所周知，当前人工智能已经迈入了一个崭新的时代，其中大模型、多模态技术以及具身智能等重要进展，对于机器人领域产生了深远影响。这些变革性的技术正在推动着许多传统观念的更新换代。

我们的团队也致力于类似的研究工作，特别是在如何运用大型模型和具身智能，来解决以往基于传统DNN、CNN方法所无法克服的问题。

我们的研究重点之一是多模态感知问题。

传统上，感知技术往往专注于单任务，并且只在决策层面进行信息融合。而现在，我们希望能够将多模态技术应用到人形机器人技术中，将视觉感知、语音感知、上下文信息以及相关知识等统一作为输入，以促进人形机器人的决策过程。

此外，我们还关注于人形机器人的决策和任务规划。

通过多模态感知信息的整合，我们期望引导人形机器人进行更为高效的决策。传统的决策过程往往较为复杂，依赖于状态转移和条件判断。而我们现在正尝试利用大型模型的技术，充分发挥大模型的逻辑和推理能力，以解决人形机器人在决策和推理方面的挑战。

具体到人形机器人的能力方面，因为人形机器人通常需要具备几大核心能力：人机交互、对话、移动和操作能力。这些能力在传统上对于人形机器人而言并不容易自主实现，往往需要凭借大量的外部输入和条件限制。而我们现在的研究，正是通过大型模型技术的应用，充分利用大模型内含的知识逻辑和推理能力，提升人形机器人的自主性和智能化水平，把机器人各种能力链接起来。

雷峰网：大模型这项技术将如何影响人形机器人的智能化进程？相应地，大模型对人形机器人来说是否也带来了新的挑战？

庞建新：将大模型技术融入人形机器人领域，确实存在一些挑战和问题，我们在做实际项目时就能感受到。

首先，大模型的核心是在于其能够集成大量知识，供人类使用。然而在人形机器人领域，许多场景与知识并无直接关联。

许多行为，如人类的本能反应或动作智能，并不完全依赖于显性的知识。比如说我们在抓取物体或在不平坦地面行走时，往往不需要经过深思熟虑，身体能够自动适应环境。

在人形机器人的设计中，我们可以将其分为“大脑”、“小脑”和“躯体”三部分。小脑部分与大模型中的知识学习并不直接相关。因此，在大模型技术落地时，我们需要解决如何将大脑与小脑结合，以及如何通过小脑驱动躯体的问题。

其次，大模型依赖数据，当任务与数据关系不大，或者数据难以采集和学习时，这构成了一个重大挑战。大模型训练和推理的高算力要求也是一个问题，特别是当应用场景对实时性有高要求时。

第三个挑战是大模型本身的特性，伴随着“涌现”的同时，这也可能导致“幻觉”问题。如何抑制这些幻觉，通过各种方式抑制或者控制大模型输出错误信息，是我们需要克服的难题。

此外，大模型的成功率或者有效率问题也至关重要。对于大多数用户，往往需要多次尝试输入才能得到有效答案，如何尽可能降低使用者的专业水平，比如通过自动生成相关提示语高效地获得正确结果，也是当前大模型需要解决的重要问题。

雷峰网：大模型与人形机器人的结合正在发展期，是否分化为几种不同流派？

庞建新：我个人认为，可能有两种流派。

一种流派采用分层结构，将大模型分为三个层次：

第一层与大脑相关，主要处理知识、常识推理等；

第二层与动作决策和任务规划相关，类似于小脑的功能，指导动作的规划；

第三层则直接与控制相结合，处理动作的规划与控制。

这种分层解耦的方法，使得每一层都可以专注于其特定的任务和数据需求。

在大脑层面，可以使用现有的大模型数据，如与场景相关的知识和数据。

而在动作规划层面，由于大语言模型中缺乏这方面的内容，我们需要在仿真环境或物理环境中采集新的数据，以丰富这一层次的数据集。

至于控制层面，可能需要通过强化学习等技术，在虚拟或物理环境中生成所需数据。

另一种流派则追求端到端的解决方案，即从感知直接到控制的全过程。

这种方法虽然数据更为复杂，但能够提供更为直接的解决方案。然而，这种端到端的数据同样难以获取。

在实践中，我们的选择并不局限于单一流派。我们同时探索了解耦的分层方法和端到端的技术，以技术储备和实际应用需求为导向。也就是说，由于人形机器人存在特殊的非刚体特性，我们目前更倾向于采用解耦的分层方法。同时，我们也在进行端到端技术的探索和研究，以适应未来可能的需求和发展。

雷峰网：最近我们对孙宇教授做了专访。孙教授的研究重点在于将大型语言模型应用于具体的机器人任务中，例如厨房烹饪场景。他的研究使得机器人能够创造出知识库中未包含的新菜单。此外，GPT-4通过精心设计的提示工程，能够生成多个不同的高级任务规划，并将其转化为可执行的低级PDDL计划。请问，优必选在这一领域的研究是否有相似之处，或者存在某些差异？

庞建新：孙教授的研究实际上涉及到了高层决策和任务规划。

当我们人类执行一个任务时，通常会将其分解为一系列子任务，这个过程可能是下意识的，不一定由大脑直接完成，也可能是小脑参与其中，因为人类的认知过程相当复杂。

例如，当我们想要拿一瓶水时，我们自然而然地知道水可能在冰箱里，于是我们会走向冰箱，打开门，通过视觉找到水，然后抓取并带回。这个过程就是一个任务流。

所以抽象来看，人类执行任务时，将其拆解为各个子任务本身就是一种知识。这种知识可以通过推理或场景驱动来实现。这表明，大模型在理解和生成任务规划方面具有巨大的潜力，尤其是在与具体场景和知识库相结合时。

当前的AI技术，正是通过大模型，包括GPT或其他模型，处理这种任务流，进行决策，并将任务分解为子任务，再由人形机器人执行。

我们的一些研究工作与孙教授的研究类似，也是在特定场景中进行。例如，我们在2023年世界机器人大会上展示的“人形机器人多模态具身智能系统”，就涉及到更高层次的决策和任务拆解。

雷峰网：我追问一个问题，大模型与人形机器人的结合，是否能够帮助机器人向人类智能迈出关键一步？

庞建新：首先，我们需要认识到，大模型的应用不仅仅是关于知识的问题，它还涉及到上下文和环境的问题。

当我们考虑将大模型应用于人形机器人时，目前还是会采用多个模型的集成应用，我们通常会将其分为几类：

基于语言的大模型、基于视觉的小模型、语音的小模型、多模态的大模型，以及通过强化学习等方式学习到的动作规划，以及控制策略的方面的大模型等等，它们在学习方式和应用上的差异是显著的。

一般看来，人们通常将大模型与基于生成式的语言大模型联系在一起。然而，在人形机器人的控制和规划领域，它们有自己独特的模型体系，这些模型与语言处理的并不是完全一样。

但无论是哪一种大模型，它们能与人形机器人结合的原因在于，人形机器人需要在复杂多变的环境中进行有效的交互和操作。那么，多模态大模型和基于知识的大模型，能够为机器人提供丰富的上下文信息和环境理解能力，从而提高其适应性和决策质量。此外，通过强化学习等技术学到的动作规划策略，可以增强人形机器人的动作协调性和任务执行能力，通过将这些模型进行融合，从而提升了人形机器人与物理世界的交互能力和智能化水平。

雷峰网(公众号：雷峰网)：那么您的团队在融合大模型技术时，在分工上如何安排？

庞建新：优必选在这方面采取了一种灵活而协同的工作方式。

由于大模型技术涉及的领域广泛，公司在进行相关项目时通常会组织多个团队联合作业。这些团队可能包括视觉感知、控制和语言处理等领域的专家。这样的跨领域合作模式已经成为优必选的标准做法。

而且与传统的深度学习项目不同，大模型技术的应用已经超越了单一工种的界限，需要多个团队的紧密协作。

这种跨团队的合作模式并不是新的组织结构，而是大模型技术发展至今的必然结果。技术的多样性和复杂性要求不同领域的专家共同参与，来实现项目的成功。

雷峰网：当前优必选推动技术成果产业化方面，有哪些计划或正在进行的项目？

庞建新：今年2月底，我的团队与新能源车厂合作开展了一项实训工作。这项工作涉及到了我们多模感知决策技术的一部分应用。然而，我们也认识到，尽管这是一个很好的开始，但要实现AI大模型与人机协作的深度融合，我们仍需攻克一些核心技术难题。

人工智能技术，特别是大模型的应用，已经与我们的研究和实际项目紧密结合。

近期，优必选也跟百度达成了合作，将文心大模型接入人形机器人Walker S ，共同探索中国AI大模型+人形机器人的应用。

伴随着大模型技术的赋能，人形机器人的产业化进程将加快，未来“降本增效”的人形机器人将在工业制造、商用服务和家庭陪伴等多个场景实现落地应用，解决劳动力短缺，提高生产效率，让人类生活变得更加美好。我们坚信，这项技术将是未来长期发展的重要方向。我们将继续致力于这一领域的研究和开发，以推动技术的进步和产业化进程。

02 优必选技术高管的身份背后

雷峰网：能介绍下您的研究背景吗，是什么激发了您对AI与机器人技术结合的兴趣？

庞建新：我本科是在中科大，这段时期专注于语音信号处理，而科大讯飞正是在我所在的语音实验室孵化出来的。后来我又在中科大完成了计算机视觉方向的博士学习。

2011年，我加入中国科学院深圳先进技术研究院，一边做科研，一边做产业。因项目合作，参与到与腾讯公司的合作中，研发了名为“小Q”智能机器人的产品系列。也就是那时候我正式从AI研究转向机器人研发，将人工智能与机器人相结合。

当我2015年加入优必选时，我专注于将人工智能技术与机器人融合，推动机器人技术的研发和应用落地。

所以总结来说，我的经验涵盖了语音处理、视觉识别到机器人技术等多个领域，这些都是当前人工智能和机器人发展的关键领域。

雷峰网：为什么看中了优必选？加入已经近十年时间了，这种专注来源于什么？

庞建新：我加入优必选确实有一段奇妙的经历。

2014年，在前海深港青年梦工厂开业典礼上的一次展览，我和团队代表中国科学院深圳先进技术研究院，展示了我们的产品，而优必选的展位就在隔壁。

后来我了解到，优必选在做国内自主研发的人形机器人，也了解到了公司创始人周剑对于人形机器人的愿景和梦想，发现这个与自己的梦想高度契合，所以选择加入了优必选。

那时候，我住在宝安西乡，每天往返近100公里，到龙岗上班。因为我加入公司比较早，参与了公司早期和中期的多个项目，将这些技术转化为公司的众多产品。这就是热情所在。

实际上我从未真正离开过工业界。在我加入中科院之前，曾在一家外资企业从事计算机视觉算法的研发工作，后来这家企业在国内科创板上市。我在中科院的工作中，一半的精力用于技术转化，孵化了几个有影响力的产品，另一半则致力于前沿科研。这些年来，我的工作始终围绕着如何将最新技术转化为实际产品。

雷峰网：自2015年加入优必选以来，你眼中的公司经历了哪几个发展阶段？

庞建新：优必选从未局限于单一的技术研发或产品开发。公司始终坚持技术和产品同步发展的战略，这也是优必选吸引我的地方。我认为，只专注于技术可能会导致与实际应用脱节，而只关注产品则可能失去技术优势和市场竞争力。

在2015年加入优必选后，在 CTO 熊友军博士的带领下，我们共同推动了研究院的成立，目的是将技术研发和产品开发紧密结合。

我们公司内部要求，研究院除了支持产品进行技术研发，还要投入资源跟进最新技术，根据技术发展趋势和未来场景中可能遇到的关键技术进行研发。

从2016年开始，优必选着手研发大型人形机器人，并以此平台为基础，将技术成果转化为各业务线的产品支持。公司始终坚持两条腿走路的策略，不偏重任何一方。

优必选在技术投入上非常聚焦，始终思考机器人技术的未来发展趋势和应用场景。基于这些长期趋势和应用场景的考量，公司有针对性地寻找和研发适合的技术。因此，优必选很少会受到外部研究热点的影响，而是坚持沿着既定的技术发展路径和应用场景进行研发。

雷峰网：研究成果转化为实际产品，您有哪些心得？

庞建新：科研人员往往专注于技术创新和独特性，以解决科学问题为导向，追求学术上的突破和理论上的完备解或最优解。

而在工业产品开发中，我们更多的是寻找和解决已经存在的关键问题。目标是找到与工业场景、成本、软硬件匹配度以及研发周期最相匹配的解决方案。这意味着在工业界，我们需要更多地考虑产品的实际应用和市场的需求。

此外，在面向产品或特定场景的工作中，还需要建立一套标准化的思路。这涉及到如何将场景中的各种元素数字化、标准化或规范化，确保技术的长期积累和持续改进。

尽管科研和工业界的目标和思路有所不同，但解决挑战的方法和路径在本质上是类似的。

雷峰网：以大模型这个热点技术举例，业界对其的广泛关注始于2022年底，当时ChatGPT的发布引发了众多讨论。在优必选是什么时候讨论大模型？

庞建新：我们对大模型技术的重视可以追溯到更早的时期。优必选在2022年，甚至在2021年上半年，就已经注意到了大模型技术的潜力。

最初，大模型技术主要应用于视觉领域，许多国内外的科研机构和大型企业都在探索，如何利用视觉大模型进行识别和检测。

随着时间的推移，当语言大模型开始出现时，优必选内部已经开展了类似的项目，并在内部开展了小规模的研究项目来深入探索这些技术。

到了2023年和2024年，优必选迅速将这些技术应用到了机器人领域。通过自身的研究，优必选在技能上也进行了一些创新应用，将大模型技术融入到产品开发中，提升产品的性能和智能化水平。

这次，优必选Walker S与百度文心大模型进行深度融合，进行任务调度应用开发，快速构建了任务规划与执行能力，并完成柔软物体操作和物体干扰分拣等任务，也是这种技术应用的一次体现。

03 机器人如何进化？

雷峰网：您认为当前市场对机器人的需求主要集中在哪？是否有特定的场景，为您的技术和产品研发提供了启发？

庞建新：在大模型技术出现之后，整个行业对大模型及其在各种场景中的应用提出了明确的需求。因为大模型技术正在重塑我们的生产方式，改变了生产力的构成。

人们可能会思考，是否可以通过人形机器人结合大模型技术，来解决工业制造中的问题？打造教育领域的潜在应用？

传统上，计算机教育可能侧重于采用编程的教学方法，但随着大模型技术的发展，我们现在可以探索低代码甚至零代码的方式来解决问题。这可能为教育带来新的范式，使得更多人能够通过使用这项技术来满足他们的生产力需求。

除了工业制造和人工智能教育，优必选也在探索大模型技术在人机对话、康养以及其他应用场景中的潜力。

雷峰网：国内外对于机器人的较量到了什么阶段？对于AI前沿技术的把控会最终是如何影响大机器人开发上？

庞建新：国内外在机器人的研究思路上存在一些区别。中国企业的研究思路更加面向实际应用场景，而海外企业，如OpenAI等，在得到大量资金的支持下，能够进行更多开放式的科学研究。

中国学术界和产业界曾经经历过一段跟随阶段，尤其是在大模型等技术领域跟随欧美的研究趋势。

但中国的跟随步伐相对紧凑，尤其在面向产品应用开发方面。尽管在某些领域，如芯片和GPU等与大模型密切相关的技术，中国可能会面临一些挑战，但我认为这种跟随是必须的。

因为在技术快速发展时，整个技术路线和应用场景还存在不确定性，当前正是国内机器人企业快速发展的最佳时期。

雷峰网：国内有哪些企业在机器人和大模型结合方面做得比较好？

庞建新：从全球范围来看，大模型与具体行业的结合还处于非常早期阶段。尽管大模型技术取得了很多进步，但它在商业应用方面的转化还处于早期。

当技术进入平台期，真正的应用才会开始。也就是说，目前技术尚未开始收敛，当技术开始收敛时，才意味着它真正准备好进行大规模应用。目前可能还处于小规模场景或特定场景的实验和测试阶段。

此外，大模型技术发展迅速，但应用仍面临一些挑战，如算力和数据的高要求，以及效率、成本和幻觉等问题。

雷峰网：在AI+机器人领域，未来几年可能会出现哪些颠覆性的技术变革？除了大模型技术之外，还有哪些值得关注的发展趋势？

庞建新：仿真技术可能是未来人形机器人领域一个潜在的颠覆性变化。由于人形机器人控制和操作相关的数据难以构建，仿真技术的发展将对人形机器人领域产生重大影响。通过高效的仿真技术，我们可以构建大量用于人形机器人应用的数据和虚拟场景，这对于人形机器人技术的进步非常重要。

当前阶段，人工智能和人形机器人技术的结合正处于一个开放性问题的时期。

无论是在高层决策应用、底层控制，还是场景构建和仿真等方面，都呈现出多样化的发展态势。虽然已经在特定场景中看到了一些成果，但这些成果是否足够泛化，是否能够在人形机器人上直接进行使用，仍然是一个挑战。

总之，AI增强人形机器人领域正处于一个充满活力和创新的时期，未来几年可能会出现多项颠覆性的技术变革。仿真技术、大模型以及其他AI技术的发展，将为人形机器人领域带来新的机遇和挑战。

在这个百花齐放的阶段，我们需要持续关注技术的发展动态，并积极探索如何将这些技术应用于实际场景中。

本文作者吴彤，长期关注AI4S，欢迎添加微信（icedaguniang）互通有无。

｜GAIR live 圆桌预告

4月8日（周一）晚间8点～10点，雷峰网将举办一场主题为「大模型时代，机器人的技术革新与场景落地」的线上圆桌论坛。

本次论坛的嘉宾有：南佛罗里达大学孙宇教授、武汉大学李淼教授、逐际动力张巍博士、优必选科技庞建新博士。

“全球人工智能与机器人大会”（GAIR）始于2016年雷峰网与中国计算机学会（CCF）合作创立的CCF-GAIR大会，旨在打造人工智能浪潮下，连接学术界、产业界、投资界的新平台，而雷峰网“连接三界”的全新定位也在此大会上得以确立。

经过几年发展，GAIR大会已成为行业标杆，是目前为止粤港澳大湾区人工智能领域规模最大、规格最高、跨界最广的学术、工业和投资领域盛会。

GAIR Live作为雷峰网旗下视频直播品牌，旨在输出新鲜、深度、原创的大咖访谈与对话内容，打造辐射产、学、研、投的特色线上平台。

｜AI+机器人相关资料

1，Consolidating Trees of Robotic Plans Generated Using Large Language Models to Improve Reliabilityhttps://gairdao.com/doi/10.1142/S2972335324500029

2，《对话南佛罗里达大学孙宇教授：当大语言模型用于机器人任务规划丨IJAIRR》https://mp.weixin.qq.com/s/vrTMsssLQvmI11kX38Jvog