ChatGPT 不是终点：阿里不出，谁与争锋？

阿里 gpt-3 大模型

作者：溥茜

2023/03/02 21:41

ChatGPT正在变成一场竞赛，中国企业争先恐后抢发“自研”的ChatGPT，争当所谓的赢家。但实际上，ChatGPT并非竞赛的终点，而是起点，只是堪堪拉开了人工智能新时代的一角序幕。这场对于通用人工智能的角逐，实际上是一场无尽的长跑、而非百米冲刺。假设真有一个这样新的时代到来，哪些力量可以一争高下？此前，雷峰网盘点了追赶「ChatGPT」的学术、创业与大厂三派力量：学术一派，清华大学一骑绝尘；创业一派，王小川、王慧文财大气粗；大厂一派，则以百度、阿里为代表，它们在 2020 年就已经开始布局大模型研究。（推荐阅读：《ChatGPT群雄逐鹿：陆奇屠龙，号令天下；小川不出，谁与争锋》《AIGC：我不是元宇宙的附庸品》）其中，大厂派有技术、有资源、有产品，最为突出。如同微软之于 OpenAI，谷歌之于 DeepMind，大厂与科研团队合作成为群雄逐鹿的主要形式。由于 ChatGPT 的成功背后是强科研投入与新产品优化的结合，大厂的资源（数据、算力）与产品平台，将扮演至关重要的角色。有小型初创团队就告诉雷峰网，大厂下场是意料之中，国内 AI 小公司囿于客观条件，如 OpenAI 依靠微软也是它们发展与生存的必要条件。人工智能的市场很大，每个公司都可以在其中找到自己的位置，区分的关键点其实只在于：能否在未来的持续竞争中保持投入，并最终以最低的成本提供最好的体验。

01ChatGPT 的本质

关于 ChatGPT 的讨论中，有一个常见的问题是：OpenAI 的 ChatGPT 这么火，我们（中国）还有机会吗？就模型来看，对 ChatGPT 来说，语言大模型是起码的敲门砖。作为 ChatGPT 的技术基础，GPT-3 在 2020 年首次面世，以 1750 亿参数，在多项语言任务（包含文字理解、文本生成、智能问答、文本续写、文本总结等等）中取得优异表现。从此，以 GPT-3 为代表的语言大模型成为自然语言处理研究者（NLPer）的兵家必争之地。在区分各家的 ChatGPT 实力时，大模型的实力也就成为重要考量。科技大厂中，目前在大模型上有布局的企业包括阿里（通义）、百度（文心）、华为（盘古）等。自研大模型的训练难度并不低，涉及数据、算法与算力三个维度，传言全球不超过 200 人能从头自研、训练一个大模型：•数据层面：对于深度学习，当样本数量较少时，不正确的模型复杂度会导致过拟合和欠拟合。当样本数量增多时，这种风险就会变小，因此，大模型对数据的数量与质量要求都极高。GPT-3有1750亿参数，数据量达到45TB，表现出色。而对数据的采集、清洗与标注，需要人力，也需要资金。•算法层面：除了海量数据，大模型训练对 AI 框架的深度优化和并行能力提出更高要求。这一块对 AI 人才的科研与工程能力要求最高，也是近日各大厂抢人才的源头。•算力层面：这一块参差不齐，但公开消息表明，为了 OpenAI 训练 GPT-3，微软帮忙建设了一个搭载 1 万张显卡，价值 5 亿美元的算力中心，模型在训练上则消耗了 355 个GPU年的算力，单独一次的训练成本则是 1200 万美金。OpenAI 的 GPT-4 还未揭晓，面对较为确定的不确定，企业的 AI 底层建设也显得尤为关键，算力就是其中之一。算力层面，据雷峰网(公众号：雷峰网)了解，早年各大厂虽然如火如荼地建设各自的 AI Lab，但在计算资源的投入上却参差不齐，还有的知名大厂连一万张显卡都没有。更多详情可添加VX：Fiona190913，持续关注大厂 ChatGPT 的后续报道。除了显卡数量的不足，企业与企业拉开差距的地方还可能体现在：往期算力积累，以及运用有限算力资源训练无限大模型的应对能力。这波 ChatGPT 中，除了「利好英伟达」的声量，国内众多云计算厂商与计算服务商的声量微弱，本质在于：芯片需要与算法适配。也就是说，有算力固然重要，但找到适合大模型训练、能让大模型训练的芯片更为重要。尤其是前两年大模型的风潮中，部分大厂由于成本顾虑、没有入局，已经落后一大截，难以追赶。模型与算力的高压之下，团队与团队之间的天花板其实已昭然若揭。在这波ChatGPT浪潮中，阿里颇为低调，但因为在大模型和基础设施上长期积累的优势，阿里是一个绝不容忽视的重要玩家，一举一动都牵动着整个AI行业的神经。

02长跑者阿里

诚如上文所言，大模型的研究难度极大，门槛极高。大多数中小企业在声称「自研大模型」时，往往是基于已开源的大模型与数据集，用监督学习算法进行微调，获得一个新的模型后，然后基于这个模型来开发产品。虽然性价比高，但由于底层基础差异化不大，上层建筑在产品体验上也难以区分开来。这就造成了，若要从数据、算法与算力的底层部署开始深耕，大模型的开发注定是大厂与大厂之间的军备竞赛（人力、资本、数据）。而且，开始地越早，越有先发优势。