AI大模型加速落地，阿里云持续「滋养」

作者：胡敏

2024/09/24 10:19

在刚刚结束的2024云栖大会上，小鹏汽车董事长、CEO何小鹏驾驶着小鹏P7+缓缓驶入会场，吸引了众多观众的关注。据了解，这是全球首款AI汽车，搭载了最新的端到端的自动驾驶技术，能够在无图情况下实现全城智能驾驶，并且每两天就能进行一次升级。

何小鹏表示：“对于最普通的用户，从现在到未来的36个月，可以让我们每一个人在每一个城市都像老司机一样开车。”

这些是用户能够感知到的。

小鹏汽车为何能率先推出首款AI汽车？其背后离不开大量算力支持。据了解，两年前，小鹏汽车与阿里云在乌兰察布共同建立了中国最大的自动驾驶AI算力中心，该中心成立后，将自动驾驶模型训练效率提升了超600倍，与此同时这两年该中心算力规模已经提升了四倍，达到了2.51 Eflops，在车企里是TOP级别。

小鹏汽车自动驾驶负责人李力耘则更进一步指出，端到端对于自动驾驶只是开局，真正的竞赛正在云端展开。

这些是用户不能够感知到的。

无论感知到还是不能感知到，一场大模型为代表的AI驱动的变革，正以前所未有的光度和深度在展开。

大模型要落地，是一项系统工程

小鹏汽车在自动驾驶领域的狂飙突进是大模型展现生产力的显著例子。

一方面让我们看到，随着大模型与千行百业发生关联， AI计算正在加速演进，成为整个计算体系的主导。另一方面也充分证明，大模型要想真正落地并发挥效能，不仅仅是模型的训练和推理，而是一项涉及多个环节的系统性工程，需要AI基础设施的支持。

阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭在2024云栖大会上表示，在新增算力市场上，超过50%的新需求由AI驱动产生，AI算力需求已经占据主流地位，且该趋势还会持续扩大。

据相关数据显示，当前，行业前沿模型训练计算量每年增长4~5倍，中国AI算力规模2022~2027年复合增长率高达33.9%；模型参数以10倍速增长，模型数据集以50倍速增长，对存力也提出了更高需求。

Pascal的发明人曾经写过一句话：一个婴儿的速度的1000倍就是一架喷气机——而当任何的事情的规模增加了1000倍，它就会发生天翻地覆的变化。“这个时候一定要引入了新的东西，不然它没法解决了。”中国工程院院士、之江实验室主任、阿里云创始人王坚在前不久的外滩大会上这样说道。

引入什么新东西？那就是AI基础设施。

在历史的长河中，那些至关重要的创新最终往往融入并成为基础设施的一部分，如工业时代的电力。AI时代的云计算也正是如此，据红杉资本的研讨会资料显示，云计算如今已是基础设施的核心，英伟达等公司也被划分到了基础设施类别中。

为何云计算会被认为是AI时代的基础设施？

阿里云智能集团资深副总裁、阿里云公共云事业部总裁刘伟光，在云栖大会上给出了他的答案：

“今天云的分布式架构能力、全球部署能力、全球一张网的高速通信能力，以及高性能的存储和网络处理能力，以及节能、绿色环保能力，服务器使用效率等等，相比传统企业架构，是更适合为 AI 应用爆发和迭代提供非常有力的全方位支撑。”

当然，眼下也有一些企业自己选择自建IDC买几十台、上百台 GPU 推理训练服务器进行模型的训练，但实际上这会面临一系列的挑战。

首先，如何解决算力规模化问题。对于当前的算力需求而言，尽管英伟达的芯片仍然是业界翘楚，但许多客户也开始提出了对国产算力的具体要求。因此，适配多架构算力已成为一项重要任务，能让客户在一个平台上同时支持多种芯片及多类算力服务。

其次，如何提升模型训练效率问题。卡有了，但并不代表算力效率就高，大模型推理和训练过程是一个软硬件协调的系统，其中网络的消耗、I/O 的操作几乎占据了大模型训练推理一半时间，企业需要构建一个高性能的网络，但这是一个巨大的挑战。

另外，上层应用如何应对高并发的难题，当在一款 APP 端去发布一个火爆应用，无论是文字、文本、图片、图像，或者是推理计算的时候，会引发千万人、上亿人在同一秒钟涌进 APP 进行尝试。这对应用背后的性能支撑、弹性能力的挑战是非常强的，类似于极限“秒杀”，这些是自建IDC很难应对的。

除了这些技术层面问题外，还有成本问题。AI 智能应用的能耗密度要比传统 IT 高出 10 倍以上，整个 GPU 服务器能耗是传统 CPU 能耗的 10-30 倍。当在大模型应用上计算一道高等数学题时，背后消耗的电量是利用普通搜索引擎检索的近10倍。对于很多企业来讲，去大规模构建智能化应用的时候，持续稳定电力供应以及电力成本也是非常大的挑战。

“云之于AI，绝不仅仅是算力供应。”刘伟光表示。

阿里云，拉开新一轮基建升级

眼下，AWS、Azure、阿里云和GCP等全球顶级云厂商都在围绕AI基础设施进行布局，并展开激烈竞争。

具体来讲，阿里云已形成了基础设施即服务（IaaS）、平台即服务（PaaS）和模型即服务（MaaS）三层架构，可为企业提供大模型的训练及推理提供高性能、低成本的算力资源和机器学习服务。

这一年多来，阿里云凭借其深厚的技术积累和开源开放战略，从底层到平台层再到应用层，构建了一套完整的技术栈，为通义大模型的快速迭代与广泛应用提供了有力保障。

据雷峰网(公众号：雷峰网)获悉，本次云栖大会上，阿里云智能集团CTO周靖人又公布了阿里云在技术上的最新成果。

在底层支持上，其最新上线的磐久AI服务器，支持单机16卡、显存1.5T，并提供AI算法预测GPU故障，准确率达92%；

阿里云ACS首次推出GPU容器算力，通过拓扑感知调度，实现计算亲和度和性能的提升；

为AI设计的高性能网络架构HPN7.0，可稳定连接超过10万个GPU ，模型端到端训练性能提升10%以上；

阿里云CPFS文件存储，数据吞吐20TB/s，为AI智算提供指数级扩展存储能力；

人工智能平台PAI，已实现万卡级别的训练推理一体化弹性调度，AI算力有效利用率超90%。

在平台层，据雷峰网获悉，百炼平台作为阿里云AI基础设施的重要组成部分，为开发者提供了便捷的API接口。通过接入百炼平台，开发者可以轻松调用通义大模型的能力，实现各种复杂的应用场景。这一平台层的赋能极大地降低了AI技术的使用门槛，加速了AI技术的应用。

在MASS层，通义系列模型通过快速迭代与优化，不断满足各类业务需求。

为了让大模型进一步惠及各行各业，通义千问多款模型进一步降价，Qwen-Turbo价格直降85%，低至百万tokens 0.3元，Qwen-Plus和Qwen-Max分别再降价80%和50%。其中，Qwen-Plus推理能力追平GPT4，可应用于复杂任务，是效果、速度及成本均衡的最优选择，降价后，Qwen-Plus性价比达到业界最高，同等规模较行业价格低84%。同时，阿里云百炼平台还为所有新用户免费赠送超5000万tokens及4500张图片生成额度。

周靖人表示：“云厂商拥有全栈技术储备，并通过基础设施的全面升级，让AI训练、推理、部署和应用整个生命周期变得更高效。”

大模型落地的点点“星火”，正走向“燎原”

得益于完整的AI基础设施，阿里云通义大模型已经在广泛的场景中得到了落地应用。2024年云栖大会的展区堪称大模型的“嘉年华”。三个场馆中，AI 底层和前沿技术的展商有 17 家，AI 算力计算馆展商有80 家，AI 创新应用的前沿应用馆展商数量则高达 170 多家。

受限于场地因素，这些都只是冰山一角。

据公开数据，阿里云通义大模型已经服务了超 30 万家企业客户，重点覆盖了互联网、金融、汽车、科研、医疗、教育、政务、工业制造和零售等领域，包含营销设计、社交、AI 游戏、在线教育、智慧终端、自动驾驶、智能座舱、金融客服、政务服务、代码开发、药物研发、气象预测、太空探索等场景。

互联网距离AI技术最近，与大模型相结合的场景也最丰富。

喜马拉雅、星巴克、三得利等都是率先将通义大模型应用于营销设计的公司；微博和小红书则利用通义大模型把社交“玩”出了新高度；无论是老牌的新东方，还是新兴的酷学院和精准学，在线教育机构都在牵手通义大模型来改善学习效率。

游戏行业是拥抱大模型最彻底的行业。完美世界游戏通过接入通义大模型，在剧情、对话和音频生成等多个环节中获得了助力，不仅提升了游戏内容的丰富度，也为玩家带来了更好的沉浸式体验。网易游戏通过将AI引擎部署在云端，实现了AI队友的高效推理，极大地丰富了游戏玩法，增强了玩家的游戏体验。

同时，大模型优秀的泛化能力使得终端更智能、金融服务、政务服务更便捷，软件开发更高效，等等。

随着智能手机市场的饱和，通过技术创新吸引用户成为了一个新课题。vivo基于通义大模型开发的“vivo看见”，通过实时语音播报、画面内容识别等功能，为用户提供了全新的交互方式，增加了产品的竞争力。联想在其AI PC中集成了通义千问等模型，打造了“天禧”个人大模型，提升了智能终端的智能化水平。

在公众服务方面，众安保险、盈米基金、红棉小冰等通过与通义大模型的合作，在智能客服等场景进行了全面升级，有效提升了服务效率和客户满意度。上海市徐汇区通过通义大模型的支持，使得涉企服务场景中的咨询更加准确，服务更加便捷高效。

中国一汽、长安汽车、趣丸科技、哈罗集团等引入通义灵码，用于提升软件代码生成效率。

此外，在大模型的加持下，更多的场景被重构和创造。

智能座舱和自动驾驶让汽车成为新的物种，小米汽车、极氪汽车、零跑汽车等也都与通义大模型合作，提升智能座舱的体验。

机器人的出现让历史悠久的工业制造重启智能之路。拓斯达和有鹿的机器人接入通义大模型后，具备了诸多新能力。

当然，大模型带来的AI技术进步，让人类不仅关注眼前和脚下，还把探索的焦点投向生命健康、气候和太空。

携手阿里云，复旦大学CFFF平台发布了气象大模型，并将预测速度从原来的小时级缩短到了3秒内。基于通义大模型，医药巨头阿斯利康搭建药品不良反应自动分析和总结平台，使药物安全把控效率提升300%，准确率从90%提升至95%；国家天文台和中科院地化所联合通义大模型，打造出“观星”和“探月”的垂直大模型，让中国科研更有竞争力。

上述种种，不一而足。2024云栖大会的召开可谓正当其时，提振了市场对大模型和AI发展的信心。

前年底，当大模型横空出世时，震撼力非比寻常，从业者对大模型落地应用有各种各样的畅想，然而经历了一年多发展后，舆论场上开始出现各种质疑的声音，认为大模型在应用落地方面未能尽如人意。

但阿里云本次集中展示的大模型落地全景无疑给了市场一剂强心针。无论是通义大模型服务的客户数目，还是给客户带来的价值，都远远超出外界期待。

当然，大模型所代表的生成式AI技术还在应用的早期，在大多数人的经验里还没有发生过这类事情，本能会产生怀疑，这很正常，因为大部分新的技术革命都会在大多数人的怀疑中成长。

风物长宜放眼量。从1956年达特茅斯会议算起，AI已经走过了近70年的时间，这中间几度沉沉浮浮，但学界和业界从未丧失信心，接力探索。

在2024云栖大会首日，大家集中讨论了这个问题：“今年大模型发展究竟是变快了，还是变慢了？”

“变快了。” 清华大学人工智能研究院副院长、生数科技首席科学家朱军，阶跃星辰创始人、首席执行官姜大昕，月之暗面Kimi创始人杨植麟都出了相同的回答。

作为阿里云的掌门人，吴泳铭则更为乐观和坚决：“过去22个月，AI发展速度超过任何历史时期，但我们依然还处于AGI变革的早期。生成式AI最大的想象力，绝不是在手机屏幕上做一两个新的超级app，而是接管数字世界，改变物理世界。”