编辑 | 青暮
面对多样化算力供应的需求,曙光智算早就做好充足准备,比如,曙光智算已经为许多大型企业提供AI应用的支撑。
灵活而多样的算力配置是复杂的数学问题,但曙光智算却化繁为简,只对外提供即插即用式的接口,这正是「智算+」API新模式。
「智算+」API新模式,依托于曙光智算API接口。基于该API接口,AI研究人员无需任何算力配置的专业知识,便可轻松接入资源庞大的曙光计算服务平台,实现AI模型训练、推理等操作,从而加快、简易化整个研发流程。
无界的两大含义——向内多样化、向外简易化,被「智算+」API诠释透彻。
图注:曙光智算服务架构
通过开放API,曙光智算可为SAAS服务提供商、应用软件提供商、第三方算力服务商提供多样化的算力服务,分别对应3种集成模式:
首先是平台集成。该模式主要面向第三方算力服务商,具体来说是,基于曙光智算AC平台服务和「智算+」API,将第三方算力服务商平台入口集成到曙光统一服务平台(AC平台),底层使用曙光自运营算力。
AC平台将多个智能计算中心通过数据互联互通,从而进行跨中心的管理和调度,并以API或非API的形式对外服务。
其中,智能计算中心采用专有的调度引擎,来协同计算资源。所谓调度也就是对于特定的问题,选择不同的建模(比如SVM、CNN等)和计算方式(比如BLAS、AVX等并行模式)。
其次是应用集成。该模式主要面向应用软件提供商,为包含多个软件的应用商城提供强大而灵活的算力。具体来说是,将第三方应用部署到曙光智算现有算力资源中,并依托平台监控管理模块对应用程序进行管理、调度、性能监控、提供优化指导等。
目前应用商城已经集成海量商业应用Portal和开源应用软件,比如人工智能类软件包括了TensorFlow、PyTorch等深度学习框架,以及Hadoop、Spark等数据分析框架。
例如在人工智能领域,百度飞桨与曙光智算合作,已实现「智算+」API与Paddle2.x的适配,国产X86及其加速卡版作为常用分支合入官方GitHub仓库,支持安装包直接安装,实现与GPU的API接口统一。此外,通过将「智算+」API对接AI Studio,百度飞桨还可为开发者提供人工智能学习、实训、比赛的算力资源。
曙光智算还助力复旦大学类脑智能科学与技术研究院,构建并利用多模态多尺度脑数据库,发展了模式识别、深度学习等类脑智能方法。其中,「智算+」API为研究院提供了数百独占节点+上千个动态节点,协助完成了从CUDA生态到国产异构加速生态的代码迁移、应用优化等工作。
在AI领域中,深度学习盛行的当下,人工智能近乎有了一致的数学语言,同时也就有了更加灵活的协同效应,而耦合与解耦的协同也在深度学习领域发挥重要作用。比如在一般的全连接神经网络自身效率不高时,就要通过内部“横向耦合”来深入地探索合适的机制,最终具有更强适应性的Transformer架构脱颖而出。之后,与数据、任务等要素“纵向解耦”,Transformer成为如今适用多种任务的大模型的标配,并且不仅仅限于类人智能,蛋白质结构预测等科学计算任务亦被证实利用Transformer是可行的,基于Transformer的大模型也在通用AI的探索路径上被寄予厚望。
可以说,AI的技术演变如今也呈现向内多样化、向外简易化的模式。
同样,算力的耦合与解耦的协同也在曙光智算的设想之中。基于这种协同作用,并凭借20多年的从业经验、统一和商业化的运营模式、丰富的多类型资源、超高速的计算/存储网络、安全的设计标准,曙光智算将打造算力的“无界”生态。
首先,AC平台将不同的智能计算中心进行内部“横向耦合”,如同调整神经网络中错综复杂的连接和激活机制一般,通过深度的融合来得到“强适应的Transformer”,也就是规划出多样的算力配置方案,体现资源无界优势;其次,「智算+API」则像经过千锤百炼的Transformer模型,以“好用、通用黑箱”的、“纵向解耦”的方式,最大限度推动硬件资源、算力网络、算法应用之间的协调适配,以实现计算价值最大化,体现技术无界优势。
最后,在资源无界、技术无界的推动下,曙光智算得以打造全产业链共享的算力生态,以“零门槛”方式最大限度接入产业链上下游相关方,破除信息孤岛,推动打造超连接、共进化的无界生态系统,实现无界生态的持续创新、升级。
「智算+」API新模式,诠释了曙光智算的算力“无界”的终极奥义,从资源、技术、生态三个层面构建“开放无界”的算力平台,引领计算产业迈入互利共赢的新时代。
雷峰网(公众号:雷峰网) 雷峰网