雷锋网按:在10月的2018全国高性能计算学术年会(HPC China 2018)上发布的中国高性能计算机性能排行榜TOP100中,中科曙光第九次夺取中国内市场份额的第一名。而在11月全球超级计算大会(SC18)上,全球首款采用了浸没式液体相变冷却技术刀片服务器的HPC系统——曙光新一代硅立方高性能计算机首次亮相,标志着使用全新浸没式液冷高效散热技术的硅立方产品形态的诞生。
软件层面上,中科曙光发布了SothisAI2.0人工智能平台,推动AI、深度学习及训练领域与HPC的深度融合。依托AI大潮,中科曙光也在以AI为主体业务的互联网领域斩获颇丰,签下了以今日头条为代表的大单,标志着其在互联网方向非传统HPC领域的大力发展。
中科曙光表示,融合将会是未来重点推动的理念之一,希望能够将平台打造成支撑HPC、大数据或AI的综合性先进计算平台。
近日,雷锋网与中国科学院计算机网络信息中心副主任研究员迟学斌、曙光副总裁、中国国家高性能计算机工程技术研究中心副主任何铁宁,以及曙光公司高HPC方案与交付部经理杜夏威,就中科曙光HPC领域在2018年及未来的发展状况进行了交流对话。
2018年,HPC领域出现了许多新名词新概念,比如以前常用的性能单位是Flops,现在又多了一个新单位Ops,不再以浮点运算作为衡量标准,而是对操作次数的考量。此外还有NVIDIA产品上常见的Tensor Core,这一新计算单元在未来的AI运算领域还会有更多发展空间。
自NVIDIA DGX2公布后,HPC界开始从纯粹追求高性能,转变为与AI寻求更好的结合,美国的Summit超级计算机也不例外。随着Summit重新夺回了中国占据多年的TOP500第一名,让采用CPU+GPU这种异构体系结构的HPC成为了绝对主流。
迟学斌对雷锋网讲到,Summit这台机器让人印象特别深刻的一点是它的实测效率很高,达到了70%多,这在已有的异构系统里应该是最高的一台,其最高性能高达3EOPS,这对于中科曙光来讲是一个挑战,要发展同样E级计算HPC的话,其他途径很难实现,只能使用异构体系。
据介绍,在全球超级计算大会上,已经有一些非常完美的Summit应用展示了出来,例如由美国加州理工大学和国家实验室设计的,使用传统科学计算和AI计算相结合来预测地震的应用,在设计上非常有意思。
“地震整体的计算使用了传统科学计算中的有限元,而在单点破坏严重的地方则使用了测量数据加AI推理。”何铁宁分析道,“两者结合之下,将Summit这台机器应用到了完美,并据此得到了戈登·贝尔奖。”他表示,这些应用最值得学习的地方是如何让传统科学计算和AI计算这两者有机的结合起来,实现比较完美的负载均衡完全匹配。
在2018年的HPC领域,节能性已经成为了一个非常重要的问题,这从全球超级计算大会Green500排名便可见一斑。
根据雷锋网的观察,目前在一个计算中心的成本中,电费占据了相当大的比例,而为缓解这一状况,内蒙古等北方能源产地正在积极考虑如何将煤炭直接转变为计算力。即首先把煤炭能源就地转为电力输出,未来的计算中心则可以直接选址于此并直接将电力转化为计算力输出。
“原来要将北方开采的煤炭通过大秦铁路运到南方,发电之后再千里输电给计算中心,最后才能输出计算力。”何铁宁称,“如果就地开采、就地发电、就地计算,然后直接把计算力从内蒙古输到广东,可以极大的减少现在运煤和输电过程中的一系列损耗,整体运转效率很高。”
他表示,目前中科曙光正在与呼和浩特政府进行探讨研究,未来可能在呼市展开试点建设。
此外,未来在HPC上执行的运算,可能不再全部属于传统科学计算,其中还会包括一些推理等AI计算。原来HPC所处理的应用大部分属于确定性的问题,在计算结果完成后只需精度符合要求即可,而以后要处理的问题可能越来越多是属于趋势问题,不再是靠精度取胜。
针对这一转变,迟学斌以股市分析举例,这是很动态的东西,并不需要那么精确,但是要能正确描绘出其整体走势。“这种动态问题在未来会发挥更重要的作用,现在传统科学计算的规模受到可扩展性的制约已经很难大幅提升,在传统科学计算和AI计算相结合的新形势下,可扩展性的问题依然是关键性问题。”
今年的HPC市场风起云涌,一边是美国两台新超算Summit与Sierra,将占据HPC TOP500榜首多年的中国超级计算机神威太湖之光挤到了第三位,另一边则是中国超算的入榜数量由半年前的206台增加到227台。此消彼长的激烈竞争让我们更加关心,相比发达国家的超算技术领域,国内在超算领域主要存在哪些机遇和挑战?
对此杜夏威表示,从企业的角度来看,真正的HPC技术在传统行业或成熟产业界的渗透其实还远远不足。国内能做到依托HPC系统助推制造与仿真的制造业相比国外还很少,有很多高端制造企业依然停留在传统工作站或传统使用方式上,并不能有效利用或将其业务迁移到HPC系统并充分发挥效能,以加速产业或设计的快速迭代。
“这一情况影响的不仅是能不能完成计算的问题,可能还会影响依托计算衍生出来的整个产品生命周期管理、数据管理以及数据交互问题,甚至还包括未来一步步迭代产生的知识库复用问题。”杜夏威对这一问题非常认真,“这是一个很大的链条,我们与国外相比还有很大的差距。”
迟学斌指出,中国在HPC领域跟国外一直有差距,也一直在追赶。这种差距主要体现在软件和应用层面,且这种差距并非依靠资金投入便能实现追赶,而是要持续不断的慢慢积淀。目前国内HPC硬件上的“弯道超车”并不能掩盖整体缺乏良性发展的情况,我们现在也正向这一模式靠拢,想办法完善生态体系,但差距依然很大。
“我们差的其实是一份底蕴。”何铁宁总结道,“国外是一点点发展起来的,我们现在重要的是把欠下的基础打牢。”
对于即将到来的2019年,迟学斌表示中科曙光的重点仍然在于E级超算,“实现途径可能是异构也可能是众核”,同时AI还是会继续下去,依托于AI和传统HPC如何能够彼此配合或者融合起来,这可能还是各家追逐的热点。此外中科曙光在软件上的投入也将逐渐增加,明年将会有更多的投入在生态建设上。