雷锋网 AI 开发者按:2019 年 8 月 19 日,SIGCOMM 2019 在北京开幕。在 8 月 24 日,由阿里巴巴和 ACM SIGCOMM 联合举办的黑客马拉松赛(Hackathon)将于北京阿里中心举行,本届 Hackathon 主席由阿里巴巴基础设施网络研发事业部高级技术专家刘洪强担任。这场赛事一共吸引了来自世界各地的 8 个代表队参加,角逐冠军。
针对本次 Hackathon 如何赋能 AI 学术青年,以及阿里基础设施网络研发事业部的细节,雷锋网 AI 开发者独家访问了刘洪强主席,并在不改变原意的情况下,将活动及采访内容整理如下。
雷锋网 AI 开发者:这次 ACM SIGCOMM 上的 Hackathon 的参赛主题是「Measuring and Debugging Real Network Systems」,为什么会选择这个主题呢?这个主题对于行业或者现实生活都有哪些启发?
刘洪强:SIGCOMM 是 ACM 在数据通信中的旗舰会议,所以 SIGCOMM 上面的 Hackathon 也是以「网络」为主题。今年是 SIGCOMM Hackathon 举办的第二届比赛,相较于上一届更广泛的网络主题,这次我们选择了更聚焦的「测量和调试真实的网络系统」作为本届比赛主题。
我们主要希望能够通过这一主题,让参赛者意识到当前的网络系统中还存在着大量困难的问题有待解决,所以开发好的监测工具和分析工具对提高网络系统的整体稳定性和性能至关重要。除此之外,我们还希望能够通过这个主题让计算机网络和系统行业的人看到开发网络测量和调试系统的价值和难度,提倡思考如何借助 AI 等新工具,从更高和更系统的层面了解现有的重要网络系统,从而为云计算等重要的基础设施资源保驾护航。
雷锋网 AI 开发者:刚刚你提到的借助 AI 新工具,那么 AI 技术可以如何帮助解决这个主题所面临的问题呢?
刘洪强:本次 Hackathon 中,参加者可以利用前沿的 AI 技术来对测量所收集的数据进行处理,这一方法能够在一定程度上帮助我们发现工作人员难以发现的潜在问题。同时,本次 Hackathon 也鼓励参加者能够将 AI 的计算集群和系统作为研究对象,来设计测量和调试的工具,通过深入了解 AI 训练中的网络瓶颈,进一步研究如何为 AI 系统设计更好的网络。
雷锋网 AI 开发者:除了 AI 技术,参赛还需要用到哪些技术?比赛中,赛会方能够提供相应的平台或数据来辅助选手完成比赛吗?
刘洪强:本次比赛中,赛会方提供了几个题目供选手选择,技术领域涉及远程程序调用(RPC),RDMA 高速网络,WiFi 网络,4G LTE 网络,以及深度学习训练系统网络。
其中,RPC 是远程程序调用的简称,它是被大量应用于分布式系统中的网络通信协议和接口的整体解决方案。它的特点就是将网络底层的通信协议细节隐藏,让应用程序在访问和调用远程资源的时候能够像调用本地资源一样方便。因此,RPC 是分布式系统开发的重要工具,它的性能和稳定性对分布式系统整体的性能和稳定性有着深刻的影响;
而 RDMA(Remote Direct Memory Access)是一种数据中心中的高速网络解决方案。它的特点是将所有的传输层协议是现在硬件里,直接打通网卡和内存之间的读写访问,可以极大地提高网络带宽,实现超低延迟,节省服务器上 CPU 的使用量;
WiFi 网络和 4G LTE 网络则是我们日常生活中用到的两种基础的无线接入网络;而分布式深度学习则是人工智能的关键技术,它利用网络实现多台服务器互联,将更多的计算资源联合投入一个任务的计算,计算单元之间靠高速的网络进行大量通信交换计算结果,实现对 AI 训练的极大加速。
同时,赛会方还提供了免费的阿里云计算资源,包括阿里云所能提供的所有类型的服务。如果有团队要将自己的计算资源带入会场,赛方也会提供场地、网络和电力等支持。
雷锋网 AI 开发者:如果参赛选手要想在赛事中取得优秀的成绩,有哪些要点值得选手们参考吗?
刘洪强:如果能够解决赛会方提供的更难难度的题目,那么该选手取得优秀成绩的几率将大大提高;同时,完成更多的题目也能够取得更优异的成绩。另外,所有的团队都会有 5 分钟时间来讲解他们的成果,团队报告的质量、完成效果以及创新度都会视为评分参考要点。
雷锋网 AI 开发者:目前,我们身边有很多 Hackathon,本次 ACM SIGCOMM 上的 Hackathon 与其它(比如最近京东举办的 Hackathon)相比,最大的亮点是什么?
刘洪强:本次 Hackathon 的最大特点是它集中在了解和解决计算机网络系统中的真实问题,并且这场比赛是由企业与 SIGCOMM 联办,因此比赛更偏向于学术研究方向,力在将开发和研究更充分的融合。
雷锋网 AI 开发者:那你认为怎样的选题最适合通过 Hackathon 的形式来进行呢?
刘洪强:Hackathon 的题目一定要有实际意义,同时也可以对未解问题具有探索意义。另外,题目的范围既要要有一定的专业范围,避免主题太泛而缺乏比较的标准;同时也要有足够的空间,来启发参赛者发散思维进行思考和创新。
雷锋网 AI 开发者:你认为马拉松赛事对开发者最大的锻炼体现在哪里?
刘洪强:Hackathon 赛事对开发者最大的锻炼是能够从平时的工作中暂时解放出来,通过解决 Hackathon 的问题来重新思考他们所关注领域当前面临的问题;同时,参赛者还能在短时间内得出极具创新性和实用性的结果,在比赛中认识更多志同道合的人。
雷锋网 AI 开发者:在本次整个 Hackathon 的筹备过程中,赛会方都面临了哪些挑战呢?
刘洪强:主要挑战有三点。
首先需要确定一个合适的题目,这个题目需要能够足够聚焦特定的专业背景,并且能够有足够大的空间供参赛者发挥。
第二就是能够在这个大题目下确定出具体的挑战题目供参赛选手选择。因为这次 Hackathon 面向的对象包括所有对计算机网络与系统感兴趣的人,所以每个挑战还要有不同难度的子挑战,这样才可以让不同背景的人参与。
最后是准备足够的计算资源,并且保证选手在 Hackathon 当天也能流畅地访问这些资源。
雷锋网 AI 开发者:能否结合你个人过去的参赛经历和我们谈谈参加比赛对于个人成长有哪些帮助?
刘洪强:我在 SIGCOMM 2018 也参加过 Hackathon,并且这次比赛也给我留下了非常深刻的印象;对我个人而言,主要收获有两点。
首先,通过对 Hackathon 的题目的了解,我能够从侧面了解到这个领域目前的状态,比如:什么「新技术、新工具」正在成为当前领域的主流,实际系统中有什么重要的问题需要解决,人们是如何思考这些问题等方面,我能够有更准确的把握。
其次,在 Hackathon 的组队和交流过程中,我交到了志同道合的朋友;而这些朋友,在之后的工作和生活中,有的成为了我的合作伙伴,有的成为了我的挚友,他们都对我的人生有着积极的影响。
雷锋网 AI 开发者:我们知道阿里有技术团队、运营团队、销售团队,但是很少听到阿里基础设施网络研发事业部,能否跟我们介绍一下这个团队的整体情况?
刘洪强:阿里网络研发事业部是阿里云智能事业群中负责整个阿里经济体的网络架构设计、运营、研发和研究的部门。其职责范围覆盖了阿里的全球数据中心网络、城域网、骨干网、边缘网络、光网络和无线网络。
雷锋网 AI 开发者:阿里网络研发事业部的核心技术是什么呢?目前团队都有哪些的研究成果或者技术成就,可以简单向大家介绍一下吗?
刘洪强:阿里基础设施网络研发事业部研发了多项国际领先的核心技术,例如高性能网络、自研交换机、网络智能化运营体系、IPv6 等等。通过系统化的技术创新,我们部门也为整个阿里经济体提供了非常可靠、灵活和高性价比的网络。
图 1 阿里云 NFV 网络技术平台
而在近几年,阿里网络研发事业部在研究上发展非常迅速。就在今年 SIGCOMM 上,阿里网络研发事业部的两篇研究成果被大会所收录。
其中一篇介绍了阿里巴巴自研的新一代高速网络拥塞控制协议(HPCC)。HPCC 利用了最新的交换芯片能力,将网络拥塞延迟降低几十倍至上百倍,同时拥有快速收敛,高效和高稳定性等可以被理论证明的特性。
另一篇是业界首次实现的基于意图语言驱动的 ACL(访问控制)规则管理系统。该系统已经在阿里的骨干网得到了应用,能够实现将骨干网的 ACL 操作变得简单而不易出错,将网络 ACL 变更的计划时间从几周缩短为几个小时。
雷锋网 AI 开发者:阿里网络研发事业部的下一步发展计划是什么呢?
刘洪强:网络研发事业部未来计划继续推进国际化,随着阿里经济体在全球业务的展开,提升阿里网络在东南亚、欧洲、美洲的覆盖面。
与此同时,我们会加大在技术上创新研发的力度,聚焦在未来 100G+的高性能网络、自研机交换机、边缘网络、意图驱动网络、以及无线网络(含 5G)等几个关键领域。
雷锋网 AI 开发者:如果有一名 AI 学术青年希望能够加入阿里网络研发事业部,那么他需要具备哪些能力呢?
刘洪强:网络研发事业部是一个高度技术密集型的部门,我们非常欢迎在网络创新研究、硬件研发、架构设计、操作系统、高性能网络、可编程网络、无线网络等领域有专长的候选人加入。
而网络智能化是未来发展的必然趋势,AI 则是实现网络智能化的核心手段。我们理想中的 AI 候选人,需要具备一定的网络背景知识,兼具良好的开发能力和 AI 应用能力,并且不惧困难和挑战。
SIGCOMM 是由 ACM SIGCOMM 组织举办的通信网络领域的旗舰型会议,也是目前国际通信网络领域的顶尖会议之一。SIGCOMM 2019 吸引了来自全球计算机通讯网络研究人员、学者及学生将近 1200 人参加了此次会议。
此次会议议题广泛,包括物联网、云计算、人工智能和5G给全球所带来的巨大影响。同时,会议将从更广泛的网络研究和治理的视角出发,重新审视互联网高速发展所带来的紧迫挑战。
多年来,世界顶尖的大学和科技公司在 SIGCOMM 上发表的论文奠定了人们对先进网络技术的认知,同时众多网络通信领域的具有里程碑意义的著作均是通过 SIGCOMM 发布。不过,SIGCOMM 对论文的质量要求极高,必须具有基础性贡献、前瞻性影响和坚实系统实现的论文才会被收录,因此每年只录用 30 篇左右。
今年其中的两篇论文由中国企业阿里巴巴拿下,论文题目分别为《HPCC: High Precision Congestion Control》和《Safely and Automatically Updating In-Network ACL Configurations with Intent Language》。
图 2 SIGCOMM 2019 大会现场
雷锋网 AI 开发者