2年，3个版本，华为云ModelArts的变与不变

作者：王刚

2020/09/25 12:12

今年的2020华为全联接大会，又是一次华为云AI的大秀。无论是郭平、徐直军的战略部署，还是侯金龙和郑叶来的具体演说，云与AI无疑都是华为今天重金投入的新技术。

AI的背后是数据和应用，而这两样背后，都是专注创新的开发者在默默努力。从近两年的云&AI行业趋势看，“取悦开发者”是一个必然的趋势，他们对技术的变化是最为敏感的，也是云&AI得以落地的关键环节。

2年，3个版本，华为云ModelArts的变与不变

也因此，围绕开发者们构建的AI开发平台逐渐从幕后走到台前。从业内来看，头部的几家云厂商们纷纷祭出大招，比如华为云在2018年就推出ModelArts AI开发平台，阿里云以ET大脑的方式构建各行业AI开放能力，腾讯云则部署其AI平台云智天枢TI Matrix，百度云则持续推进EsayDL AI开发平台的应用。

在9月25日的华为全联接大会的第三天，华为云把重要信号留在了最后：宣布华为云ModelArts 3.0版本出炉。

2年，3个版本，华为云ModelArts的变与不变

无疑，这个新版本的推出又给AI开发者带来了福利。

华为云ModelArts 3.0的推陈出新

具体而言，现场发布的这套ModelArts平台 3.0版本，支持10万级别的企业任务同时运行，支持10万级别的用户规模同时使用，为开发者创造良好的AI开发环境，使其专注做创新的事情。

一般而言，优秀的分布式加速比是大规模集群分布式训练的关键能力，也是促使用户选择使用大规模集群来加速AI业务的关键因素，华为云ModelArts领先的分布式加速比能力，在512芯片的集群规模下成绩为93.6秒，优于NVIDIA V100的120秒。

2年，3个版本，华为云ModelArts的变与不变

从功能上看，ModelArts 3.0版本相比之前带来了4个小惊喜：

1. 华为云EI骨干模型：基于行业小样本数据训练高精度模型

过去需要大量专家经验的模型选择和参数调节，有了华为云的全空间网络架构搜索和自动超参优化技术，可以在无需人工干预的情况下高效完成。过去需要几周甚至更长时间的模型训练和部署，有了华为云的计算资源调配和数据管理，可以缩短到几小时内甚至几分钟完成。

2. 联邦学习：打破数据孤岛，推动行业联合建模

数据是AI应用的基础，只有基于多样化的数据，才能实现AI智能感知。然而，在实际AI行业落地中，数据是分散在不同的数据控制者之间，这就导致了行业AI应用的数据孤岛问题，使得AI算法训练效果受到限制。

针对这个问题，华为云ModelArts提供联邦学习特性，用户各自利用本地数据训练，不交换数据本身，只用加密方式交换更新的模型参数，实现联合建模。

3. 模型智能评估、诊断：降低AI行业落地门槛

在ModelArts上使用模型评估功能，是在得到首次训练的模型之后，先将模型推理结果、原始图像和真实标签送入模型评估模块中，这个模块会从数据、模型两个方面对模型的综合能力，包括精度、性能、可信和可解释性进行综合评估，最终针对可能存在的问题输出一些改进模型能力的诊断建议。开发者在这些建议的帮助下，使模型达标，并最终部署成能实际应用的推理服务。

4. 高性能AI计算：资源灵活调度加速行业AI落地

作为AI平台云服务，弹性训练是ModelArts推出的核心能力之一，可以根据模型训练速度的要求自适应匹配最佳资源数。

具体在产品上，ModelArts提供两种模式：

一是Turbo模式，可以充分利用空闲资源加速已有训练作业，在大多数典型场景下加速效率大于80%，训练速度提升10倍，并且不影响模型收敛精度；
二是Economic模式，可以通过最大化资源利用率给开发者提供极致的性价比，在大多数典型场景下可以提升性价比30%以上，并且不影响模型收敛精度。

变与不变

可以看到，在新版本中，华为云带来了新的玩法，提供全流程极简开发工具，即使是普通的业务人员，基于已有组件，通过拖拽方式即可构建应用。这背后，ModelArts平台的本质并无二致，依旧是围绕着开发者的需求与痛点展开，通过AI模型不断地和实际落地场景交互来得到更优的模型，进而提升AI开发流程的效率。

在1.0版本中（2018年），ModelArts解决了AI一站式开发的行业痛点，华为云打造了一款比行业更快的AI平台，致敬开发者。

在2.0版本中（2019年），新增自动学习、端边云能力协同，ModelArts关键能力凸显。ModelArts 2.0以全流程的极简和自动化升级已有的AI开发模式，让数据准备、算法开发、模型训练、模型管理、模型推理全链条产生质的飞越。

而在3.0版本中（2020年），平台驶入深水区，辅助AI深入到各行业生产系统。目前华为云已在10多个行业成功交付了600多个AI项目，积累了丰富的经验。为了解决企业深入使用端到端生产而推出骨干模型、联邦学习等新功能。华为云EI骨干模型(EI-Backbone)技术，基于行业小样本数据训练高精度模型，提供了AI开发的新范式。

可见，版本的演进背后，是新技术趋势不断与行业生产结合，是数字世界供给与物理世界需求不断碰撞的结果。

一直以来，深度学习分布式训练不断发展，各类模型的训练对于计算设备的需求越来越大，不过由于各种原因，训练作业的资源还没有被充分利用。比如l训练算法代码本身质量不高、资源利用率低；模型大小和超参数的设置也会显著地改变计算资源的利用率；资源池整体利用率有波动，类似于“峰谷电”，训练作业的提交也有高峰期和低谷期，造成很大的资源浪费。

这就不得不提到弹性训练。

弹性训练作为ModelArts的核心能力之一，2年来一直在自我锤炼，根据模型训练速度的需求自适应实现资源的最佳分配。ModelArts提供两种模式，一是Turbo模式，可以充分利用空闲资源加速已有训练作业，训练速度可提升10倍以上，并且不影响模型的收敛精度；二是经济模式，可以通过最大化资源利用率给开发者提供极致的性价比，在大多数典型场景下可以提升性价比30%以上。

可见，智能并不是一蹴而就的，而是逐渐进化的，最终从AI开发环节进入到AI落地的每一个场景。

客户“用脚投票”背后的价值体现

客户是喜欢用脚投票的——这一点体现在ModelArts 的行业落地属性上。有2个案例非常经典，一个是华为云ModelArts支持候鸟保护计划，另一个是华为云ModelArts正在支持中科院构建斑马鱼的全脑图谱。

注：候鸟保护，华为做了什么

在另一个项目中，中科院正在基于ModelArts绘制斑马鱼脑联接组的全息地图，目前重构准确率和召回率已达95%。

中科院脑智卓越中心是一所将脑科学与智能技术相结合的研究实体，是一个了解大脑如何实现各种认知功能的一个机构，首先需要完成一个重要且必要的大科学工程，就是绘制全脑联接图谱。

其原理是：借助斑马鱼幼鱼透明的特点，机构可以应用钙成像技术来观察活体斑马鱼全脑10万个神经元的时空放电，从而绘制从各种感觉输入到行为输出的全脑活动图谱，并结合结构图谱来发掘大脑如何工作的普适规律，进而进行脑功能模拟和理论研究。

2年，3个版本，华为云ModelArts的变与不变

通过和华为合作，应用华为云ModelArts平台，使用用360条斑马鱼图像样样本所包含的近20万图像块的“金标准”标注数据，训练出了从前期图像分割到后期神经元形态追踪的一整套网络。

目前重构准确率和召回率已达95%，如果使用多机并行计算，从理论上推算下来，10万个神经元的总重构时间可以从125年缩短至10天。如果再扩展到小鼠甚至非人灵长类如猕猴，降本增效方面将更加可观。

当然，这离不开生命科学的知识和技术，也综合交叉了数学等学科，但是计算机科学特别是AI领域的技术与知识，正成为人类的助手，帮助人类绘制脑图谱，更帮助人类实现新领域的突破。

云上开发必将成大势，商业价值转化也在加速

就像郑叶来在现场提到的那样，目前越来越多的人加入到开发者队列里来，而更好的工具将为他们创造更高的技术起点、更敏捷的构建能力、更广阔的商业成功，未来“云上开发”可以解决目前面临的困难。

截止到目前，华为云已经提供超过210个云服务，服务全球150万开发者，华为云Marketplace和华为AppGallery已经做了强强联合，TO B（SaaS扶持计划）和TO C（HMS生态扶持计划）两条腿一起走，加速商业价值转化。（雷锋网雷锋网雷锋网）