资讯业界

此为临时链接，仅用于文章预览，将在时失效

智能体到来，人人都能成为AI应用开发者吗？

百度智能体王海峰

作者：二维马晓宁

2024/04/18 07:04

智能体到来，人人都能成为AI应用开发者吗？

初夏的深圳国际会展中心，在人影攒动的热烈氛围中迎来了一场百度AI的大阅兵，李彦宏以及多位百度重要业务负责人在Create 2024百度AI开发者大会上，向所有关注百度产品和AI技术的人秀出了最新实力。

去年三月份，百度文心一言发布；随后十月份的百度世界大会上，王海峰解读了文心大模型4.0的技术创新。一年来，文心大模型发展情况如何，是否有了新的突破，成为了人们关注的重点。

王海峰是这场阅兵仪式上最重要的人之一。现在人们渴望从这位百度AI的领航人口中，了解百度这家中国人工智能的领头雁，进展到了什么阶段。

如果这篇文章可以用一句话总结，那就是，在这场大会上，AI能力终于可以成为人手必备的能力了。

01

从思考到执行，智能体是什么？

自2023年3月16日文心一言发布以来，百度不断迭代升级文心大模型，技术创新不断，从知识增强、检索增强，进一步发展出知识点增强；基于更大的算力、更多的数据和更强的算法，依托飞桨平台，从文心3.0、3.5，到4.0，文心大模型能力愈加强大，效果和性能全面提升。

这些介绍未免过于泛泛而谈，具体增强了哪些能力，以实际产品和应用效果来谈更通俗易懂。

最显著、也最让人能体会到科幻感的一个变量，就是智能体。本来这就已经是一个热门话题，这次大会，又让人实实在在感受到了智能体的威力。

所谓智能体，就是能够理解、规划、反思和进化，让机器像人一样思考和行动，可以自主完成复杂任务，在环境中持续学习、实现自我迭代和进化。

从这个定义上来看，智能体的思考模式就已经和生物大脑同频了。而百度还将这一过程白盒化，让用户能够清楚看到，每一次输入需求后，大模型是怎么理解的，又是如何经过思考调用工具来完成任务的。

王海峰也在会上展示了一个这样一个案例。在文心大模型 4.0 工具版上输入，“我要到大湾区出差一周，想了解一下天气变化，请帮我查一下未来一周北京和深圳的温度，告诉我出差应该在什么衣服并整理成表格。”

如果有一个人类助理收到了这样的请求，思考路径就会是，先查询了解天气情况和温度，据此判断合适的着装应该是哪些，最后汇总成一个表格。

而案例中的智能体，也正是遵循了这样一个思考过程。第一步是调用高级联网工具来查询天气，第二步是调用代码解释器挂出温度趋势图，第三步选择合适的衣物，最后对结果进行思考确认，输出表格。

对于人类来说，做出判断很简单，麻烦之处在于不停地查询和记录。但是对于大模型来说，最麻烦的地方，是如何让大模型从一个步骤进行到另一个步骤。

从理解规划，再到行为决策，最后调用多个工具完成任务，百度的智能体展示了非同一般的增强学习能力。

这正是文心大模型4.0工具版最令普通用户感到惊喜的功能。一些简单的决策工作，比如查询航班找机票、安排日程做规划之类的小事情，都能直接告诉文心一言，让它给出一个决策意见。

简单的几句话，就能节省大量的人工操作，这就是智能体的意义。

02

模型自己写代码，程序员没有门槛了吗？

查询天气、航班等等，都可以统归到信息处理一类，这些还是大模型的自然语言能力的延伸。我们在日常生活中需要的，远远不只是信息处理，有时候还需要智能体帮我们执行一些具体的工作。

比如查询完行程和机票信息后，我们希望大模型能自动帮我们下单一张机票；做好个人财务规划之后，我们希望大模型能自然帮我们购买符合我们自己需求的理财产品。

购买行为就是一次执行。那怎么让大模型帮我们去做执行呢？

过去的人机互动模式，都是人类将需求转化为指令，再将指令翻译成计算机可以理解的“语言”，驱动计算机去做各种事情。做人与计算机之间的翻译官，这就是程序员在这个时代的伟大意义。

编程是一门显学，不过有能力写代码的程序员毕竟是少数人，对于不会写代码的人，王海峰带领团队进行的工作或许提供了一条新路径，代码智能体。

思考模型加上代码解释器，二者合一，构成了代码智能体。

代码智能体就是在完成思考完成后，把完成任务的指令和相关信息整合成提示，输入给代码解释器，翻译成可供执行的代码，完成用户更个性化的需求。代码智能体的认知能力不容小觑。思考模型会对代码解释器的执行结果进行反思确认，如果正确，就把结果返回给用户，不正确还能继续进行自主迭代更新。

文心大模型经过万亿级的数据训练，不仅包含了丰富的自然语言数据，还涵盖了各种类型的代码数据，所以可以将自然语言与代码能力融会贯通，打通了从思考到执行的过程。

王海峰带来了一个简单的展示案例，如何为每一位前来参加百度Create大会的嘉宾定制邀请函。

对于一个成熟的设计师来说，这份工作非常简单，重复性也比较高，做起来浪费时间，代码智能体就能够理解需求，识别邀请函模板内容后，自动生成代码，将嘉宾姓名写到合适的位置。

我们常常怀疑，大模型有了代码能力，会不会取代程序员？但实际上，大模型能够写代码，覆盖的是那些简单的工作，真正重要的研发，还是需要专业程序员的智慧。大模型能做的，是把他们从繁重的重复劳动中解放出来。

作为首席技术官，王海峰对于程序员工作中的烦恼也是感触颇深。他提到，在实际工作中，很多程序员都有过接手代码的经历，需要从头分析和理解整个工程代码，非常耗时耗力，而文心大模型推出的智能代码助手Comate就可以在其中提供帮助。

Comate这个词，蕴含了百度工程师们对于智能代码助手的期待——成为程序员的AI同侪。

Comate能够接手所有低效耗时的繁琐工作，只要一条简单的指令，就可以快速了解整个代码架构，包括模块、功能、具体实现逻辑等等，进一步自动生成新代码，比私人助理还要快捷方便。

文心大模型的代码能力，既能够降低普通人开发应用的门槛，也能够降低程序员的工作量，从某种意义上来说，它提升了人机交互的效率。

03

大模型是最佳解决方案吗？

这场“阅兵仪式”的最后一个重头戏是多模型。

一个通用大模型虽然功能强大，但并不是解决所有问题的最佳答案。这次大会上百度发布了对大模型压缩蒸馏后、再用数据训练出来的三个轻量模型，ERNIE Speed、Lite、Tiny，针对不同的应用场景去做匹配。

做小模型的逻辑是，在大模型应用落地的过程中，效果、效率和成本都很重要，而在实际应用中，需要从场景需求出发，选择最适合的模型。

王海峰现场分享了多模型技术。一方面，是高效低成本的模型生产；另一方面，是多模型推理。

高效低成本模型生产方面，百度研制了大小模型协同的训练机制，可以有效进行知识继承，高效生产高质量小模型，也可以利用小模型实现对比增强，帮助大模型的训练。

同时，百度建设了种子模型矩阵，数据提质与增强机制，以及从预训练、精调对齐、模型压缩到推理部署的配套工具链。

高效低成本模型生产机制，助力应用速度更快、成本更低、效果更好。

多模型推理方面，百度研制了基于反馈学习的端到端多模型推理技术，构建了智能路由模型，进行端到端反馈学习，充分发挥不同模型处理不同任务的能力，达到效果、效率和成本的最佳平衡。

同等尺寸下，效果明显更好，同等效果下，成本明显更低。这就是多模型带来的新变革。

04

结语

除了智能体、代码和多模型技术，文心大模型在其他方面也持续创新，包括基于模型反馈闭环的数据体系、基于自反馈增强的大模型对齐技术，以及多模态技术等。王海峰现场公布，文心大模型4.0的效果持续提升，发布后的半年时间，又提升了52.5%。

文心大模型的持续快速进化，得益于百度在芯片、框架、模型和应用上的全栈布局，尤其是飞桨深度学习平台和文心的联合优化。文心大模型的周均训练有效率达到98.8%，相比一年前文心一言发布时，训练效率提升到当时的5.1倍，推理105倍。截至目前，飞桨文心生态已凝聚1295万开发者，服务24.4万家企事业单位，基于飞桨和文心创建89.5万个模型。

人人都渴望AGI时代的到来，但是不知道AGI什么时候才能到来。说一句话，就让机器人为我们做一系列工作，这不就是科幻世界中频繁出现的场景吗？

现在，文心一言累计用户规模已达2亿，日均调用量也达到了2亿，高效满足了用户工作、生活和学习需求。

而这些成绩可能很快就要被刷新，因为智能体的出现大大扩展了AI的场景、代码助手又降低了开发者的门槛，多模型技术，为大量开发者、企业提升了效率，降低了成本。

王海峰谈到了百度AI人才计划的最新进展，百度在2020年提出了5年为全社会培养500万AI人才，目前这一目标已提前达成。

有鉴于过去一年，百度为了弥合普通人与AI技术之间的认知、能力、应用鸿沟所做出的努力，可以预见到，未来将会有更多的AI人才，将会从大模型的研究和开发中扬帆起航。（雷峰网(公众号：雷峰网)）

长按图片保存图片，分享给好友或朋友圈

智能体到来，人人都能成为AI应用开发者吗？

扫码查看文章

正在生成分享图...

取消

相关文章