12月20日,由深度学习技术及应用国家工程实验室与百度联合主办WAVE SUMMIT+ 2020在北京盛大举行。
峰会上,百度首席技术官王海峰及研究团队向开发者们展示了飞桨八大全新发布与升级,包括:
有支持前沿技术探索和应用的生物计算平台 PaddleHelix 螺旋桨,开发更加便捷的飞桨开源框架 2.0 RC 版,端云协同的 AI 集成开发环境 BML CodeLab,支持更强大分布式训练的业界首个通用异构参数服务器架构,开源算法库增至 200+,飞桨企业版 EasyDL 智能数据服务升级,飞桨硬件生态路线图以及携手全球开发者开启「大航海」计划。
飞桨(PaddlePaddle)是百度深度学习开发平台,也是国内最早开源的深度学习框架。
2020年,在新基建浪潮下,AI市场加速下沉,各行各业都拉开了智能化升级的大幕。在以深度学习为代表的人工智能发展浪潮之下,深度学习技术在赋能行业智能化转型中发挥了重要作用。
在本次峰会上,作为人工智能技术创新和产业发展的基础设施,百度飞桨再次交出一份亮眼的成绩单。
百度副总裁吴甜在会上表示,截止目前,百度飞桨凝聚开发者265万, 创造模型超过34万;携手20家硬件厂商,适配芯片与IP型号29种;服务企业超10万家,覆盖金融、交通、物流等数十个行业。
据此前报道,在今年5月的WAVE SUMMIT+峰会上,百度飞桨发布35项全面升级以及飞桨全景图,当时平台开发者数量、模型数量、服务企业数量分别为190万、23万和8.4万,对比目前来看,飞桨的技术与生态发展显然正在提速。
接下来,我们来逐一揭秘飞桨的最新升级成果。
百度飞桨首次将行业触角伸向了全新的生物计算领域。峰会上,百度集团副总裁吴甜重磅发布了基于飞桨的生物计算平台——螺旋桨(PaddleHelix)。
螺旋桨是一款生物计算开源工具集,提供包括RNA二级结构预测、大规模的分子预训练、DTI药物靶点亲和力预测以及ADMET成药性预测等在内的新药研发和疫苗设计环节的核心能力,为生物信息学、计算机交叉学科背景的学习者、研究者和合作伙伴,更便利地构建AI算法模型。
此前,百度研究院面向全球疫苗研发机构及研究中心等公益开放了LinearDesign算法,并开源了RNA二级结构预测的Linear系列算法。最近,国际顶尖人工智能峰会The AI Summit举办,百度凭借LinearFold和Linear算法在新冠抗疫中的表现,荣获AIconics首届“AI For Good”人工智能向善奖。
吴甜表示,螺旋桨生物计算平台将秉承一贯以来的开源开放原则,与合作伙伴共建共享,未来形成一套完整的面向行业的生物计算生态和服务。目前百度推出的《基于机器学习的生物计算平台技术要求》,已成为行业内首个生物计算平台的标准立项。
从今年5月飞桨发布全新全景图,再到螺旋桨这一重磅工具组件的“加盟”,可见,飞桨平台在不断迭代拓新,持续提升核心能力同时,进一步夯实了人工智能开源开放与创新发展的底座。
峰会上,更让开发者们惊艳的是飞桨开源框架V2.0RC版的重磅发布。
百度深度学习技术平台部高级总监马艳军表示,在新框架下,飞桨动态功能更加成熟、API功能更加强大,“编程一致”、“动静统一”的特性将为开发者们带来全新的体验,同时也将为深度概率编程、量子机器学习等前沿学术研究提供更好的支持。
飞桨 2.0RC 版已将默认的开发模式正式升级为动态图模式。
静态图和动态图是深度学习框架的两种主要编程范式。静态图模式能够对整体性做编译优化,有利于性能的提升,而动态图的优势在于便于用户调试。
马艳军介绍称,全新升级版飞桨融合了两种变成范式的优势,在保证性能的同时,可方便开发者随时查看变量的输入、输出,或者使用 Python 原生的控制流灵活组网。
此外,为了克服动态图在C++语言部署上的挑战,飞桨 2.0RC还提供了完备的动转静支持。在动态图编程调试的过程中,开发者仅需添加一个小小的装饰器,就可以无缝平滑地自动转静态图训练部署。同时,2.0RC 版本的飞桨还做到了模型存储和加载的接口统一,保证动转静之后保存的模型文件能够被纯动态图加载和使用。
飞桨V2.0RC版本中还有一项重大的变化:API体系的全面升级。会上,马艳军主要介绍升级版API的三大特性:
一是体系化:新增了200多个API,并对所有API进行了全量功能增强以及体系化分类;
二是简洁性:实现了高层API与基础API一体化设计,有助于开发者的交叉使用;高层API的发布可减少大量模型的训练代码,实现简易开发。
三是兼容性:V2.0RC版完全向前兼容,它还提供了迁移工具,基于其他底层框架的开发,同样可迁移至飞桨V2.0实现预测和部署。
随后,马艳军还正式推出了大规模分布式训练的升级——业内首个通用异构参数服务器架构,它可以大幅提升训练效率,节约成本,真正实现训练效率最优化;
在搜索推荐领域,通用模型常常有大规模稀疏特征的特点,在训练IO密集型任务时,通常需要CPU来搭建参数服务器架构。但为了更好的性训练效果,开发者常常会在推荐模型中增加越来越复杂的网络结构,这使训练算力成为一个很大的问题。
传统架构要求硬件类型必须一致,无法加入算力比较强的硬件,但如果完全替换成GPU硬件,它有不擅长处理IO密集型任务。
马艳军称,在这种背景下,我们提出了异构参数服务器训练架构,通过性能测试,在相同硬件条件下,异构参数服务器比单纯的非异构的硬件能够提升65%以上,同时它还可以保持非常高的性价比,比如2个CPU加上2个GPU就可以达到4个GPU相应的速度。
除了大规模分布式训练外,开源算法库也进行了同步升级。目前,开源官方算法数量已从140+扩展到了200+,其中包括各个领域的多种算法,并且大多数算法已升级到了动态图实现。
最后,马艳军正式对外发布了飞桨硬件生态路线图。从今年5月份发布了硬件生态圈共建的计划以来,百度已经与20家芯片硬件企业达成了合作,目前正在适配和已经完成适配的芯片和IP型号已达29种,这在国产芯片支持上面占据了绝对的领先优势。
飞桨企业版也带来了最新升级。峰会上,百度AI平台研发部总监忻舟介绍了飞桨企业版发布和升级的两大亮点功能:全新AI集成开发环境和智能数据服务平台。
飞桨企业版包括零门槛AI开发平台EasyDL和全新功能AI开发平台BML,分别针对AI应用开发者和AI算法开发者提供开发体验。
忻舟首先介绍了BML的最新成果,即端云协同的AI集成开发环境BML CodeLab。考虑到开发者在使用BML时更关注算法的开发效率,比如它的应用性、参数调优、实验管理等。忻舟表示,BML CodeLab为开发者提供了三大特性:开发体验增强、开箱即用的便捷性以及端云协同能力。
优化体验,BML CodeLab优化了50多个项目体验,包括GPU环境简化,任务管理,专有库分发等,其中最具特色的是LSP((Language Server Protocol)的集成。
开箱即用:其客户端内置飞桨文心(ERNIE)NLP套件及单机高性能技术引擎。
端云协同:支持将本地任务无缝扩展到包括百度智能云在内的多个云端算力平台,加强客户端的可扩展性和灵活性;
EasyDL是专门为零开发基础的用户设计的AI应用平台,内置了视频、图像、文本、语音等6个技术方向高精度预训练模型,用户只需将业务数据置于其中,并进行标注,平台可自动根据任务需求进行模型训练。为了应对复杂的数据处理过程,EasyDL为开发者提供了智能数据服务服务平台Easy Data,它可提供从数据清洗、数据扩充、数据标注,到管理分析,再到模型上线后的数据回流的一站式便捷服务。
关于本次的技术升级,忻舟也主要讲了三个方面:
核心算法和硬件升级:使智能标注时长平均减少74%,物体检测和图像分割上准确性分别提升了6.4和3.2个百分点。
多人标注能力升级:深度学习任务需要大量数据标注,担任标准难以满足数据量需求;满足多人标注能力,同时解决了传统数据分发、审核的难题;提供了标签管理特色功能,让数据处理更加灵活、高效。
数据清洗升级:基于飞浆的人脸识别和人体识别模型,过滤大量无效样本,显著提高了数据处理效率。
吴甜表示,百度飞桨正在各行业、多地域、众领域发挥作用并产生更大的影响,峰会上,她从产业应用、人才培养以及开源生态建设分享了飞浆生态的最新成果与未来计划。
在产业应用方面,飞桨平台拥有超过34万个模型,服务了超过10万家企业。吴甜表示,从平台数据统计来看,飞桨的行业应用品类的分散程度明显在增加,越来越多的行业及企业开始借助飞桨实现产业智能化升级。
峰会上,来自新能源领域的宁德时代科技公司、中国石油领域的昆仑数智科技公司现场分享了使用百度飞桨的项目经验与成果。同时,百度飞桨与深度学习技术及应用国家工程实验室联合为12家企业颁发了“产业应用创新奖” 。
在人才建设方面,百度飞桨凝聚了265万开发者,累计提交超过16万次,开源贡献者超过了5000位,其中97位优秀的开发者通过层层筛选成为了百度飞桨开发者技术专家(PPDE)。在高校人才方面,飞桨也在持续投入,截止目前,飞桨的全国师资培训计划已经覆盖500多所高校,支持200余所高校开设学分课程;AI大赛覆盖全球五大洲22个国家580所高校;累计举办线上直播可176次,在AI Studio上累计学习的人次超过了290万。
未来针对AI人才培养,尤其是高校人才培养,飞浆还将持续加大力度。峰会上,百度AI技术生态部总经理刘倩重磅发布了飞桨“大航海”计划。
该计划包含:面向核心开发者的“领航”、面向人才培养的“启航”和面向产业智能化升级的“护航”三个部分。
刘倩表示,围绕高校人才培养的启航计划,未来三年,百度飞桨将投入总价值5亿元的资金与资源,支持全国500所高校,重点培训5000位高校AI教师,联合培养50万AI未来人才。
除了产业共进、人才共育之外,百度飞桨也在携手合作伙伴共建开源项目,驱动技术创新。此次大会上,清华大学计算机系教授、深度学习技术及应用国家工程实验室副主任朱军介绍了珠算深度概率编程与百度飞桨的合作,依托飞桨框架成熟的底层功能和动静统一的开发体验,更好地支持深度概率编程工具开发和前沿技术探索。
可以看出,百度飞桨的产业生态正在加速渗透到社会各界。
265万开发者、十多种行业超10万家企业,作为国产最大的深度学习平台,百度飞桨历经四年,凭借不断的技术升级、迭代逐渐获得了业界的认可和青睐,同时也逐渐在以Tensflow、PyTorch为首的垄断市场占据了一席之地。
与此同时,透过飞桨的技术创新与产业发展路径,我们也可以看到,开源开放作为其核心驱动力的巨大潜力。
如王海峰所说,开源开放让我们可以更快追踪到最新的技术进展,并将改进意见以及创新思想迅速进行反馈,形成一个正循环,进一步推动科技的创新迭代。
雷锋网雷锋网雷锋网