产业AI化的算力流水线，浪潮如何实践？

浪潮产业AI化

作者：张帅

2020/04/20 10:25

人工智能由一种技术发展成产业，这是过去数年方兴未艾的行业轨迹，AI产业化如语音识别，想象空间很大却有天花板，而将千行百业AI化，则是公认的广阔天地大有可为。

“行业信息化市场已经步入了产业AI化阶段，这将会是一个万亿级的市场。”在近日召开的IPF2020浪潮云数据中心合作伙伴大会上，浪潮集团执行总裁、首席科学家王恩东如此表示。

从技术AI进化至产业AI的中途，不同企业都在探索，边界模糊、定位重塑，这是全新的机会，可能诞生新产业形态的巨头，也可能淘汰一些竞争壁垒不强的企业，置身变革之中的浪潮，也在从底层算力向上寻找突破垛口。

结合浪潮自身的定位和产业AI化的前景，浪潮搭建了生产算力、聚合算力、调度算力和释放算力来加速落地AI的流水线，体现出浪潮对于AI算力的理解。

生产算力：覆盖训练、推理和边缘，最全算力产品线

作为服务器厂商，算力的生产是浪潮最基础的能力，浪潮已经形成完整的产品布局，能够提供全线定制化的人工智能芯片和加速卡，覆盖从训练到推理，从语音到语义，从边缘到云到AI加速到各类相关的AI应用的场景。

产业AI化的算力流水线，浪潮如何实践？

据浪潮官方表示，浪潮目前能够提供业界最全和拥有最高性能组合的AI服务器产品线，拳头型产品如针对训练场景的AGX-2，是目前全球首款在2U空间能够支持互联八颗最高性能GPU的AI服务器，AGX-5是目前全球单机AI计算性能最强的AI超级服务器，单机张量计算性达每秒两千万亿次，此外还有面向边缘计算的NE5250M5等产品。

本次大会上，浪潮发布了全球首个AI开放加速计算系统MX1，在同一机组内能够支持不同厂家的AI芯片，意味着它可以支持多种符合OAM(OCP Accelerator Module)开放标准的接口。

产业AI化的算力流水线，浪潮如何实践？

生产算力不只是硬件工作，如何让大规模计算在硬件平台上实现，必须要有与之相匹配的软件优化产品和技术。比如当下Common Crawl数据集最大接近250TB，如此之大的数据集，需要大规模深度神经网络来训练，受限于GPU显存有限，无法实现超大参数规模和高分辨率图片模型训练。对此，浪潮研发出LMS系统，它可以实现大模型内部细粒度模型的分层，从而释放GPU显存压力，同时针对图像计算整体优化。

“在针对三维的核磁共振图像的模型训练，浪潮LMS系统支持到350百万像素立方的超大尺寸图像分辨率，而在现在通用的GPU技术只能做到200百万像素立方左右的尺寸分辨率。”浪潮AI&HPC总经理刘军表示。

浪潮自研的AI大模型计算框架LMS，在NLP智能语言模型训练突破70亿参数规模，相比通用参数模型规模提升20倍以上。

聚合算力：高性能NVMe存储池，深度优化软件栈

算力生产之后，数据中心扮演聚合算力的角色，当前云数据中心仍有许多固有挑战，比如虚拟交换、VXlan等技术大量消耗CPU的资源，最多时损耗高达50%，此外，网络抖动、带宽、IOPS的增加都可能拉低云数据中心性能，同时裸金属服务器、软件定义网络等需求成为主流，也给数据中心带来新的难题。

AI算力中心上线推理服务时，尤其高并发推理服务，最大挑战来自海量文件IO处理的瓶颈，浪潮专门针对高并发推理集群进行架构优化，构建高性能的基于NVMe的存储池。具体操作是将AI计算的软件栈进行深度的优化，把所有推理节点进行高带宽，低延迟的高速网络优化，性能提升3.5倍以上。

在数据中心网络加速方面，推出N20X智能网络加速方案，最高可释放50%的CPU计算资源，IOPS延迟降低30%以上。

N20X智能网络加速方案可将主机网络、存储和计算的负载的卸载到网卡，对主机计算、存储和网络实现有效的加速，它支持 OVS、 NVMe、Virtual IO的技术融合，甚至能够实现接近于物理机性能的裸金属服务，容器和VM分钟级资源交付。

调度算力：AIStation资源平台，模型开发和部署一站式交付

如何能把生产、聚合之后的算力高效的调度用于更多的创新？

AI应用从开发环境、生产环境，模型上线、部署复杂度远超以往，人工智能企业需要一个强大的高效的资源管理平台，帮助完成一站式模型开发和部署，这就是浪潮AIStation资源平台。

产业AI化的算力流水线，浪潮如何实践？

AIStation训练平台首先能够解决研发模型开发训练的挑战，实现高效共享AI算力，加速AI创新的研发。通过AIStation，企业不同工作小组，不同开发者，都可以高效共享AI服务器资源，保证算力资源的高效利用。

“我们可以实现计算资源非常细粒度的切割共享，一块GPU资源可以共享到多个用户来同时使用，面对训练场，大规模数据集的IO挑战，我们实现了对训练数据的缓存加速，越来模型开发和训练越来越复杂，浪潮在AIStation上海提供了分布式训练和编排，保证开发人员尽可能自动化调度更大规模的计算力，来提升AI训练模型的精度。”刘军解释道。

在AI模型生产上线阶段，AIStation推理平台可以帮助客户部署和推理，从而提速整个AI生产交互过程，这其中浪潮解决了很多问题。比如兼容多种深度学习框架和推理服务，AIStation推理版本能提供多模型计算结果，保证推理结果的准确性和可信度。

释放算力：升级AutoML Suite自动机器学习平台，AI全自动建模

雷锋网了解到，仅就单一AI应用，其实现平均至少需要消耗6个人月的专家人力，以智能化工具提升AI开发的效率，有效降低人力的成本，成为不少企业用户的诉求。

浪潮升级了AutoML Suite自动机器学习平台，AutoML Suite可实现企业级一站式模型自动构建，支持私有化部署，全面支持图像分类/回归/目标检测CV场景应用，模型大小与计算量极致压缩，用户提供原始图片数据和标注数据，经过AutoML Suite处理，自动生成所需的AI算法模型。

产业AI化的算力流水线，浪潮如何实践？

AutoML Suite之所以可实现上述功能，来源于其三大核心引擎： AutoNAS可根据数据特性，从无到有构建网络模型，实现AI模型与用户应用场景的最佳匹配； AutoTune可进行超参自动调整，使算法工程师从繁琐耗时的手动调参中解放出来； AutoPrune基于元学习技术，可对任意网络进行无损压缩，使生成的模型满足用户应用生产部署要求。

目前，浪潮AutoML Suite已在智慧城市、铁路、公路等场景中得到应用。在智慧城市路口通过监测领域，基于40万数据集，AutoML自动生成的模型在日间识别准确率达91.5%，夜间识别准确率为83.6%，高于专家手动设计模型精度；在铁道开口销设备故障检测中，运用浪潮AutoML Suite自动生成的模型实现了81.8%的召回准确率；在高速公路团雾识别领域，对14000张图片进行搜索训练后，自动生成模型对团雾的检出准确率率为99.25%，模型效果符合生产应用水平。

“未来五年、十年，人工智能会成为未来最核心的计算力，面临大数据和深度学习的计算需求，人工智能会带来一个指数型增长的对计算力的需求。浪潮一直致力于创新AI计算，也是为我们当前的新基建提供原动力，浪潮会提供最领先的算力机组来生产算力，我们会通过更敏捷的数据中心来聚合算力，通过高效的调度算力我们产业AI提供更多创新的可能，同时通过释放算力来快速落地进化AI。”刘军总结表示。

总结：产业AI化，浪潮的新路

正如王恩东所说，智慧社会离不开智慧的生态。在AI产业化过程中，浪潮是新兴AI企业的主要合作伙伴和算力提供商，新兴IT企业已经积累了大量优质的算法框架、模型和数据，这些优质的AI技术正是产业AI化过程中行业用户所需要的，也是为这些用户服务的传统合作伙伴所欠缺的。

为了帮助行业用户更好的进行智慧化转型，连接传统合作伙伴和新兴AI企业，浪潮此前就提出了元脑生态计划，元脑由浪潮联合具备AI开发核心能力的左手伙伴和具备行业整体方案交付能力的右手伙伴共同组成，在本次大会上浪潮进一步推出“E基金”计划，“E基金”首期将由浪潮投入亿元作为启动资金，针对以下三个方向进行重点投入：

方案火种源：助力合作伙伴AI技术创新，浪潮自主投入市场经费，搭建AI计算平台开放环境，并免费向合作伙伴提供浪潮算法工具服务，赋能合作伙伴进行AI算法开发，并与合作伙伴联合产品创新，打造行业AI解决方案；
项目火种源：面向金融、通信、智慧城市、交通、能源等8大重点行业，给予合作伙伴联合市场推广资金支持，推动高价值AI场景化解决方案的落地，加速重点行业的产业AI进程；
人才火种源：赋能行业AI人才培养，联合打造ASC、AICC等顶级AI资源交流平台，开放资源赋能行业，培养更多优秀行业AI人才。

浪潮的目标是聚合AI最强算力平台、最优质的算法模型开发能力和最优质的集成、部署和服务能力，从而支撑和加速各行业、各产业与人工智能的融合，让各个行业、各个产业具备可感知、自学习、可进化的能力，最终帮助用户完成业务智能转型升级，以生态之力成就行业、产业AI大脑。（雷锋网雷锋网）