若愚科技：基于多模态大模型的机器人“大脑”领导者

2023/11/15 17:05

当前，“四肢发达、头脑简单”的传统机器人已经无法满足千行百业“机器代人”的需求，迫切期待机器人从单一场景自动化向复杂场景智能化的拐点出现。传统机器人实现高阶智能的关键是更加智能的机器人“大脑”。近日，工业和信息化部印发了《人形机器人创新发展指导意见》（以下简称《指导意见》），机器人产业链上下游企业迎来重大利好，特别是针对机器人“大脑”提出更高要求。

在此背景下，由哈尔滨工业大学（深圳）（以下简称“哈工深”）创立的多模态大模型研发企业——深圳若愚科技有限公司（以下简称“若愚科技”），以其卓越的技术实力和前瞻性的市场洞察力，引起了业界的广泛关注。若愚科技与哈工深共建人工智能联合实验室，形成由顶尖专家领衔的多层次、多学科研究团队，在多模态大模型、自然语言处理、具身智能和大模型量化与压缩等各个领域均有着深入的研究和理解。同时，团队依托深圳哈深资产经营管理公司孵化，享受学校政策支持和资源保障，机器人学科一直是哈工大的优势学科，学校持股团队为团队发展提供了稳定的资金来源和丰富的机器人上下游资源。团队的可靠背景也为合作伙伴提供了信心和保障。

面对机遇与挑战，若愚科技认为，将机器人“大脑”作为落地载体，是以新一代多模态大模型技术为底座的AI公司的“最佳选择”。多模态大模型技术将推动机器人“大脑”快速升级，其进化速度远超机器人本体，或将在未来2至3年内越过技术成熟点，进入规模化产业落地阶段。

将机器人“大脑”作为落地载体成“最佳选择”

目前，人工智能技术的发展正面临着大量跨模态任务的挑战，“基于多模态的预训练大模型将成为人工智能基础设施”，这一观点成为业内共识。市面上的大模型把提升多模态和多任务方面能力作为主要发力方向，而这也是机器人“大脑”在实际应用中“得分高低”的重要衡量指标，将机器人“大脑”（尤其是人形机器人“大脑”）作为落地载体，往往成为以新一代大模型技术为底座的AI公司的“最佳选择”。

机器人“大脑”可以利用多模态大模型技术，实现视觉、听觉、触觉、语言等多种信息的融合和处理，从而提高机器人的智能水平和交互能力。这与《指导意见》提出的“开发基于人工智能大模型的人形机器人‘大脑’，增强环境感知、行为控制、人机交互能力，推动云端和边缘端智能协同部署”的目标是一致的。

但从现实发展状况来看，现有的机器人公司往往依赖于外部的大型模型工具，如GPT-3、GPT-4等，然而这些外部模型并未针对机器人的特定数据进行训练，因此机器人的指令分解能力和执行成功率相对较低。外部大模型工具自身能力有限，使得机器人也受到相应的限制，无法实现真正的自主可控。所以表现优秀的大模型工具成为行业的焦点。

针对当前机器人行业深度发展所面临的诸多问题，若愚科技与哈工深共同研发具有完全自主知识产权的语言大模型和多模态大模型，掌握从0到1自主训练语言大模型与多模态大模型的技术，并得到工信部认证。其中，“若愚-九天”首次参评即连续数月登顶OpenCompass多模态大模型榜单，展现出若愚科技的强大研发实力。

以“若愚-九天”大模型为基底的机器人“大脑”在多个领域中展现出色的“智能”能力。“123亿参数”“1亿2千万图文对”“1.5万亿tokens”……一串串数字背后，是“若愚-九天”多模态大模型在各个维度的突破和优化。无论是逻辑推理、关系推理，还是感知能力方面，“若愚-九天”都能够准确地理解响应用户需求，甚至超越用户期待。

“早在成立之初，若愚科技便瞄准了机器人‘大脑’的方向，致力于为整个机器人生态赋能。”若愚科技CEO孙腾指出，《指导意见》提出的“开发基于人工智能大模型的人形机器人‘大脑’”和“围绕动态开放环境下人形机器人感知与控制”两个方面，与若愚科技深耕领域相匹配。

值得关注的是，相对于落地C端的激烈竞争，以及对超大规模数据、超强算力、超大规模用户触达的刚需，机器人“大脑”正处于起步阶段，未来上限更高、行业跨度更大、专业要求更高，竞争格局将会相对分散，这也从另一角度印证了选择机器人“大脑”为落地载体的合理性。

多模态大模型技术将推动机器人“大脑”快速升级

正如人类的“五感”互相连通、紧密协作，共同构成了人们对世界的认知体验，人工智能也朝着类似的方向发展，文字、语言、图像等不同数据类型（模态）的边界逐渐变得模糊。伴随着AI感知、交互和生成能力的快速发展，多模态大模型技术将推动机器人“大脑”快速升级。多模态大模型技术推动机器人“大脑”快速迭代升级的根本原因在于，模拟人类大脑处理信息方式是多模态模型技术的核心目标。通过融合不同感知模态，使机器人可以像人类一样来理解世界，以更为综合的方式来感知和生成信息，满足不同场景条件的实际需求。具体来讲，多模态大模型技术可以利用海量多媒体数据，实现对不同模态信息的深度理解和生成，提高机器人的认知能力和创造能力；可以利用强化学习和元学习等方法，实现对不同场景和任务的快速适应和优化，提高机器人的决策能力和执行能力；可以利用对话系统和情感分析等技术，实现对人类的语言和情感的理解和响应，提高机器人的沟通能力和共情能力。

从当前多模态大模型在现实场景中的表现可以证明，其运用在机器人“大脑”将大幅提高机器人环境感知、肢体运动、人机交互、任务规划等核心能力。例如，今年3 月份谷歌联合柏林工业大学团队推出的PaLM-E，是一种多模态具身视觉语言模型，不仅可以理解图像，还能理解、生成语言，可执行各种复杂的机器人指令而无需重新训练。PaLM-E还表现出了“正迁移”能力，即它可以将从一项任务中学到的知识和技能迁移到另一项任务中，从而与单任务机器人模型相比具有“显著更高的性能”。

对于若愚科技而言，多模态大模型“若愚-九天”能够处理文本、图像、音频和视频等不同类型数据的同时，还能打破各模态间的信息壁垒，将不同类型数据在“九天”中进行有效的整合交互，从而实现更深层次的信息理解，做到更加自然顺畅的人机对话。此外，若愚科技还实现了从人类知识到机器人世界的跨越。若愚科技联合哈工深把含有大量人类通用知识的语言基座大模型和多模态基座大模型对齐到以机器人为中心的世界，构建了多模态具身决策大模型，可充分利用基座模型中的人类知识，迅速泛化到不同机器人场景，实现了从人类知识到机器人世界的跨越。通过联合规划大模型与决策大模型，若愚科技成功突破了机器人的智能可控，为人工智能领域带来了新的突破口。

机器人“大脑”进化速度将远超机器人本体

机器人“大脑”的进化速度主要取决于大模型技术的发展速度，而大模型技术的发展速度又由计算能力和数据量的增长速度决定。目前这两者都呈现出加速的趋势，推动机器人“大脑”进化加速。机器人本体的进化速度主要取决于机械、电子、材料等领域的技术创新，而这些领域的技术突破受到物理、化学、生物等学科的限制，导致机器人本体的进化速度难以突破瓶颈。人类发育的规律和目前的AGI范式都表明“大脑”的技术进化速度会先于本体，再延伸至后续的商业化也是相同的发展路径。若愚科技预测，机器人‘大脑’技术成熟点将在未来2至3年内实现，从而进入到规模化产业落地阶段。届时，机器人将在制造业、民生领域等多个领域和场景中发挥重要作用。

“从产品化进程的角度看，目前人形机器人还处在早期，除部分细分领域如科研、接待展示等小规模落地外，其他场景都没有规模化落地，需要进一步探索落地场景和商业模式。”哈工深特聘校长助理，若愚科技首席科学家张民表示。目前，基于“若愚-九天”多模态大模型基座的垂直细分领域定制化模型已开始在各垂直领域陆续应用。例如，在智能捡练领域，多模态大模型具有自动识别各种颜色、形状等属性物体的能力，可提升工作效率；在工业组装领域，多模态大模型具有大量人类知识，可以自由切换产线，降低成本。这与《指导意见》提出的“聚焦3C、汽车等制造业重点领域，提升人形机器人工具操作与任务执行能力，打造人形机器人示范产线和工厂，在典型制造场景实现深度应用”的目标相符合，未来人形机器人将在制造业领域发挥重要作用。

新一代具身智能机器人必将成为人工智能领域的重要发展方向。《指导意见》的颁布为人形机器人产业发展提供了政策引导、技术支撑、市场空间等多方面保障，有助于推动整个机器人产业实现规模化、高质量、可持续的发展。未来，若愚科技将积极响应，加强技术创新和产品研发，拓展机器人的应用场景和市场空间，以机器人“大脑”为切入点为整个行业赋能，同时期待与更多合作伙伴共同探索机器人的发展可能性和潜在价值，为人类社会进步发展提供新动力和新选择。

雷峰网(公众号：雷峰网)