今天,OpenAI 正式官宣 GPT-4,其中值得关注的点有两个:
第一点是,对比 ChatGPT,GPT-4 的智能水平有了进一步的提升。
AI 在特定领域超越人类专家,在模拟律师考试中,ChatGPT 排名末尾 10%,但 GPT-4 在短短时间内却进步到 Top 10%。现场演讲中,OpenAI 甚至展示了 GPT-4 处理税收问题的能力,假设 Alice 与 Bob 结婚后,收入 XXX,问 2018 年标准扣税额是是多少,GPT-4 能快速得到准确答案。
另一点是,OpenAI 在 GPT-4 的论文中强调了 AI 基础设施的开发与优化。OpenAI 的官方博客阐明,GPT-4 是在微软 Azure AI 超级计算机上训练的。为了 GPT-4 能触达全球用户,Azure 云平台的基建专门进行了 AI 方向的优化。
继 ChatGPT 之后,GPT-4 的发布,让 AI 与云的关系更进了一步。
AI 越火,以ChatGPT 为代表的大模型越火,云服务的任务就越急迫。GPT-4 的发布,短期内会加剧这一局面,从长期来看,AI 与云的配合、算力、算法、数据的协同,才是留给国内投身智能计算的厂商需要打磨的地方。
GPT-4 的推出,对于「中国的 ChatGPT」们(尤其是即将发布的「文心一言」)来说自然是抢跑;但如果将 AI 视为一场长跑,我们只要跑起来就有机会——在国外友商推出一项从 0 到 1 的技术后,把这项技术玩出「花」来,实现从 1 到 100 的跨越是国内厂商们的强项;而这一切的关键,则取决于我们的基础技术建设,是否足够消化这项技术。
而细究缘由,这是行业所趋,也是技术发展的客观规律。
一、AI「三分天下」,云成为分水岭
生物学上,灵长类动物大脑皮层的神经元数量与通用智能水平成正比;人类的神经元数量为 163 亿个,约为大猩猩的 1.8 倍,恒河猴的 9.6 倍,前者在认知与理解世界的智能层面明显高于高两者。
一项研究(如下)也表明,当模型的规模达到一定程度后,大量的智能能力才具备「涌现」的基础。基于以往的研究,AI 界对大模型的研究将继续往规模拓展上努力。尽管越往后、边际效益愈加递减,但行业普遍的共识是:大模型的开发还远远没有到头。
换言之,以大模型驱动的 AI,会是接下来五年、甚至十年的 AI 主题。
图源:谷歌论文「Emergent Abilities of Large Language Models」
基于这个前提,我们就不得不聚焦于大模型研究的高门槛:如果说深度学习的基石是数据、算法与算力三驾马车,那么大模型则是大数据、精算法与大算力三驾航母,成本高、技术刁、工程难。能玩得起大模型的,必须是有人、有钱、有时间。因此,小企业与创业团队基本无法「自研」,类 ChatGPT 的钥匙只会握在资源雄厚的大厂手中。
GPT-3 刚出现时,大模型的这一特质还被行业诟病。但从去年 8 月 Stable Diffusion 、Midjourney 与百度「文心一格」等掀起的文生图热浪开始,由大厂带头推动 AI 生态建设的声音开始出现。有行业人士开始改口,认为科技巨头的入局有利于推动底层模型的进一步优化。同时,越来越多的创业团队也放弃了「自研」大模型,转而希望像 OpenAI 依傍微软一样,与国内的 AI 大厂(如百度、阿里、华为等等)建立合作。
在这种情况下,国内以语言大模型为中心的智能时代,在起步阶段就出现了「三分天下」的局面:
首先是以百度、阿里等为代表的互联网大厂,因为在深度学习的 AI 研究基础上有雄厚积累,同时从2020年 GPT-3 出现后就开始加注大模型,有人才、又烧得起钱(如百度过去十年的研发投入是1000亿),因此被 ChatGPT 的观望者们视为国产大模型开发的领军力量,以及大模型服务的「供应商」。
其次是希望站在开源大模型的肩膀上的行业团队。这当中,又可以分为两类团队:一是懂大模型开发、但没有足够资源的 AI 公司,他们最终会像 OpenAI 一样与大厂合作;二是不懂大模型开发、但懂行业痛点的非技术团队,他们希望用 ChatGPT 相关的技术去解决行业问题,如售前售后、私人家教、论文翻译与解读等等。这一类,是大模型的「淘金者」。
最后是间接受益于大模型的 B/C 端用户。ChatGPT 与其他的 AI 大模型(如决策、视觉、多模态)会为他们的生产与生活带来智能提升。以百度「文心一格」等 AI 作画产品为例,AI 小白用户也能通过输入简单的一句话 Prompt(提示)「召唤」AI 快速画出质量高的图像,丰富了数字图像内容创作的方法。可以想象,国内若推出类 ChatGPT (如百度即将发布的「文心一言」)产品也将为用户获取信息、优化工作流程等带来极大的便利。而大模型在与行业结合、与个人用户交流的过程中,又会获取更多高质量的数据,变得更智能。
换言之,大模型驱动下,AI 时代的模型与算法会成为像核电、煤电、风电一样的资源。发电厂不会把发电的能力卖给用电的人;用电的人也没必要自己买一个发电机,因为发电厂供电又稳定又安全。而在这种情况下,只有「云+API」的方式才能形成强者愈强的马太效应。
有行业人士就分析:
各巨头公司应该会各自为战,利用好自己的资源优势,构建自己的服务能力,以 API 的方式卖给中小企业和政府做应用开发(像现在的云和以前的水电),同时自己的垂域产品也会做相应升级,确保对应的营收和用户规模持续增长。
也就是说,在 ChatGPT 的淘金热中,科技巨头不仅是「淘金者」,还是「卖铲人」。
当稳健安全可控、低成本高效率的 AI 模型服务成为巨头们要占领的下一个商业摩天岭,如何提升「云」的智能计算水平成为关键;其背后的基础设施,如芯片、框架、算法及应用,直接关乎成本与效率,也成为兵家必争之地。
二、AI 时代,云要「智能」
由于大模型的研究特征,计算的「智能」需求也是必然趋势,类 ChatGPT 的商业角逐最终也落在了云的竞争上。
OpenAI 曾有一个很有意思的数据统计:2016 年,OpenAI 员工总数 52 人,平均年薪不到百万人民币,云计算一栏的支出是 232.9 万美元左右;但到 2019 年,OpenAI 的员工整体薪酬仍远低于市场价,云计算的支出却已经增加到了 3100 万美元,翻了 13 倍之多。
这说明,在 AI 的研究发展中,基础设施比人贵,云计算的需求增速更快、商业空间无可限量。同时,在新的十年,谁能为 AI 支持算力,谁就能成为下一个领跑者。
在这一战中,百度智能云是最早在云上布局 AI 能力、将 AI 与云捆绑售卖的云厂商之一。而由于十多年在 AI 领域的持续研发投入,在 ChatGPT 开启的新 AI 时代中,AI 的底层能力似乎也开始反向助推百度在云计算服务上的优势,扭转国内现有的云布局。
2012年深度学习席卷时,百度是国内最早注意到这个风向的科技公司。当年,「深度学习之父」Geoffrey Hinton 开公司拍卖,有四家企业在竞标中穷追猛打,其中一家、也是唯一的一家中国公司,就是百度(另外三家分别是谷歌、微软与DeepMind)。
2013年,百度建立了中国第一个深度学习研究院(IDL)。作为国内最早进入深度学习领域的互联网大厂,百度在 AI 上十年投入 1000 亿,2016年开源出首个国产深度学习框架PaddlePaddle(飞桨),是国内至今唯一能与国际两大主流框架 TensorFlow 和 PyTorch 正面交锋的深度学习框架;大模型上,2021年发布百亿参数中英双语大模型 PLATO-X、千亿参数大模型「百度·文心」,2022年又发布知识增强大模型 Ernie……
由于很早开始训练深度学习模型,百度在计算资源的布局上也极早考虑到了 AI 的需求。
据了解,2012年,百度就在李彦宏的老家山西阳泉建了一个计算中心,2014年开始分批投入使用,2018年全部交付。百度阳泉计算中心拥有600多项自主研发技术专利,包含「冰山」冷存储服务器和 X-MAN 超级 AI 计算平台等自研计算系统,每秒可以完成 2000 万亿次深度神经网络计算。
建成后,百度在阳泉的计算中心一直是只跑百度自己的业务,比如搜索、网盘、自动驾驶、生物计算等,在各种 AI 场景下均有磨练。2022 年 12 月底,百度正式将阳泉计算中心升级为「智算中心」后,开始对外提供 AI 的智算需求服务。据了解,目前百度智算中心在现有千卡并行环境下可以实现加速比90%,做到单机群万卡规模,有效支持大规模训练场景。
百度阳泉智算中心
目前国内多个智算中心里,阿里乌兰察布智算中心的算力为 3 EFLOPS,商汤上海临港计算中心的峰值算力为 3.74 EFLOPS,而百度阳泉智算中心的算力可达到 4 EFLOPS。
内部消息,百度即将发布的「文心一言」一部分也是在阳泉智算中心计算。阳泉智算中心专门搭建了一个机房去支持「文心一言」的运行,目前正在封闭压力测试中,即将上线。此前,阳泉已支持文心大模型、文心一格等 AI 产品的计算需求。
目前,阳泉智算中心也是亚洲最大的单体智算中心。在多项自研制冷技术的加持下,百度阳泉智算中心的 PUE 值降到了 1.08,排名全国第一。更低的能耗意味着更低的成本,价格的优势也最终体现在对外的云服务上。雷峰网
更值得一提的是,百度智能云在 2022 年推出了端到端的 AI 基础设施——「AI 大底座」,可以提供 AI 模型开发的全栈服务。在百度的「AI 大底座」上,企业不用有很高的 AI 开发能力,也无需投入大量成本建设企业的 AI 基础设施,只需把精力和成本放在自身业务场景的打磨上,AI开发的全流程都可以交给百度“AI大底座”来完成。
传统来说,AI 算法的开发部署需要经过四大环节:数据处理、算法训练、芯片适配计算与应用开发,其中,训练算法的框架与芯片是壁垒环节。百度的「AI 大底座」在芯片环节布置了自研的昆仑芯、框架环节布置了飞桨,模型层则有文心大模型等,顶层应用还开发出 AI 数字人、AI 质检等应用,打通了 AI 开发一整套流程,且每一环单独拿出来都很扛打。
图注:百度 AI 大底座架构图
ChatGPT 出来后,大家的关注点集中在算力的数量与成本上,这一点毋庸置疑。但长期来看,大模型与 ChatGPT 最终必然会沉淀到行业中去解决实际问题。这时候,「模型即(商品)服务」的概念下,将 AI 模型包装成易用可得的商品的能力就成为决胜关键。
而「AI 大底座」犹如方块拼凑,设计的灵活度就恰到好处。
如果小模型时代,AI 的智能是一年级学生的水平,那么大模型时代,AI 的智能则相当于高中生。不同的智能水平,必然驱动不同的应用需求,未来的 AI 应用场景与 AI 开发流程也将很可能发生巨变。也就是说,ChatGPT、乃至 AGI 的应用开发面临极大的不确定性。
百度在芯片、框架、算法与应用方面,均有 AI 能力,能应对产业的更多需求:
•面向有一定 AI 开发团队的大企业,百度可以提供「AI 大底座」中的其中一环或多环能力,如飞桨+昆仑,或飞桨+文心,或昆仑+文心;
•面对 AI 基础设施较差的传统行业,百度的「AI 大底座」可以提供全流程、端到端的 AI 开发服务。加上百度有 EasyDL 的全自动开发实践,此前基于大底座,百度智能云已经积累了 11 个行业大模型的训练与计算经验,可以帮助客户定制场景服务。雷峰网
据了解,百度智能云的战略是「云智一体,深入产业」,强调云与 AI 能力的结合,并深入产业的具体场景,用云与 AI 解决产业生产环节中的实际问题,帮助企业实现智能化转型,而不是简单提供存储与计算能力。雷峰网(公众号:雷峰网)
雷峰网观察到,百度在 2021 年年底打磨出文心大模型后,就开始对产业输出。百度的输出模式是:首先服务行业大客户,通过解决大客户的棘手难题积累数据与经验,沉淀到「AI 大底座」的模型层中;然后,将已经实践过的行业大模型能力复制到行业内的其他客户场景中,实现模型的泛化。
这套模式在大模型时代尤其具有商业可行性。
举个例子,百度与国家电网合作巡检项目,通过无人机搜集山头电线杆的图像后返回数据中台进行处理与算法优化,新训练的「电力大模型」算法识别准确率能提升 30%、效率提升 5 倍。在小模型时代,一个 AI 算法在东北三省也许适用,但迁移到南方就需要重新训练;但在大模型时代,迁移到另一个地方时,只需要在当地采集少量数据进行低成本调优,「电力大模型」就可以直接上岗。
大模型打磨地越多,复制成本越低,后面的客户就越用越好。在智能时代,云的定义发生了改变:以前云是资源,按需索取;现在,云需要搭载 AI 技术变成生产力,解决企业招聘部分岗位难、降低企业用人成本等,转化为可见的效率。
细数国内云厂商的 AI 能力,随着「云+AI」的模式逐渐占据主流,过往在 AI 研发上投入不足的云厂商正在智能计算的奔跑中退后。百度智能云起步晚、市场占有率低,但改变了战斗方式,逐步体现出了 AI 时代的差异化竞争优势,将自己打造成智算时代最接近用户需求的一朵云。
ChatGPT 的风波,在云的市场,分流出了一条新的路:云智一体,势不可挡。在这次 AI 时代的抢跑中,百度确实迎来了新的机遇。
三、「卖铲人」也是「淘金者」
据了解,百度大模型为其内部产品的效果提升做出了肉眼可见的贡献。
一个数据统计是,在百度文心大模型的加持下,百度搜索的问题分类准确率提升 4.5%,新闻去重召回率提升 8%,视频推荐召回率提升 10%,小度的意图理解准确率提升了3.1%。
百度既是「淘金者」,也是卖淘金工具的人。只有了解淘金的难点,才能卖好工具。
消息称,百度发布文心一言后,将通过百度智能云对外提供服务,逐步将文心一言的能力落地到生产的实际场景中。未来,不管是 API 的调用,还是场景的定制,都是通过云去统一对外输出。
从前,云厂商之间的竞争主要体现在比较谁能够在最短的时间内响应客户需求。算力越精准,客户的成本越低。但人工智能时代来临后,AI 会衍生出许多生态的问题,光比弹性已经意义不大。未来,客户需要的也不再只是一张能训练 AI 的GPU,而是一整套 AI 解决方案。
ChatGPT 打造了云的分水岭,这一战,百度能否胜出?
时间会告诉我们答案。
参考链接:
•https://arxiv.org/pdf/2206.07682.pdf
•https://openai.com/product/gpt-4