导读:SIGCOMM对于ACM特别兴趣小组来说是非常重要的年度会议,本会议主要研讨内容是数据在应用,技术,架构,和计算机通信协议上的交流。
摘要:在过去的一年半中,我们已经在商业以太网(RoCEv2)上使用RDMA来支持一些微软的高度可靠,延迟敏感的服务。本文介绍了我们在该过程中遇到的挑战,和解决这些问题的方案。为了使RoCEv2在虚拟局域网之外使用,我们设计了一个基于DSCP优先级的流量控制(DSCP-PFC)机制,以确保大规模的部署。我们已经解决了PFC引起的安全挑战问题,包括死锁(是的,它发生了!),RDMA传输活锁,NIC PFC风暴问题。我们也建立了监控和管理系统以确保RDMA按预期的进度工作。我们的实验展示了运行大规模RoCEv2时的安全和可扩展性问题都可以被解决,而且RDMA可以替代TCP用于数据中心内部的通信,实现低延迟,低的处理器占用,和高吞吐量。
Chuanxiong Guo
任职:亚洲微软高级软件工程师经理
研究方向:网络化系统设计与规模性实现,数据中心网络(DCN),网络安全,云计算,操作系统的网络支持与应用。
相关研究成果:
· Congestion Control for Large-Scale RDMA Deployments (2015 ,SIGCOMM)
· Datacast: A Scalable and Efficient Reliable Group Data Delivery Service For Data Centers (ACM,2012)
Via:ACM SIGCOMM 2016
PS : 本文由雷锋网独家编译,未经许可拒绝转载!