NVIDIA再秀GPU虚拟化解决方案，助力用户工作流程加速

作者：任然

2019/01/23 17:42

雷锋网消息，在不久前的GTC大会慕尼黑站上，NVIDIA发布了虚拟化平台的Virtual GPU软件v7.x最新版。昨天，NVIDIA在北京召开沟通会，NVIDIA GPU虚拟化高级解决方案架构师张洁，以及中国区解决方案架构师李浩南详细介绍了该技术的性能和特点。

如今，GPU已经成为企业非常重要的资本和生产力工具，虚拟化可以很好地帮助企业充分分配GPU资源给更多的用户。5年前，GRID虚拟GPU（vGPU）平台，结合VMware Horizon vDGA（虚拟专用图形加速）平台，实现了针对Tesla GPU的虚拟化工作。

NVIDIA的虚拟GPU产品包括三款旨在应对数字化工作环境挑战的产品：面向知识工作者的NVIDIA GRID虚拟PC（GRID vPC）和NVIDIA GRID虚拟应用程序（GRID vApp），以及面向设计师、工程师和建筑师的NVIDIA Quadro虚拟数据中心工作站（Quadro vDWS）。

NVIDIA再秀GPU虚拟化解决方案，助力用户工作流程加速

经过5年多的发展，vGPU从软硬一体到单纯的软件，从一个只能支持一个明确固定型号的GPU到现支持最新Tesla系列的所有GPU，从对图形图像进行支持、解决客户在使用图形图像时的重负载应用时如何在数据中心部署的问题，到如今在虚拟GPU上实现GPU计算部分能力的业务。

据张洁介绍，新的GPU软件Vgpu 7.x版通过实时迁移等功能确保了可靠性和易管理性，其新功能包括：

基于NVIDIA Quadro vDWS运行多GPU工作负载：通过在单一虚拟机（VM）中集合多达四个NVIDIA Tesla GPU的性能，可体验到虚拟GPU性能的巨大提升，从而应对图形及计算密集程度最高的渲染、仿真和设计工作流程。
借助VMware vMotion的实时迁移：IT可在不会对用户造成影响，也不需要预定停机时间的情况下迁移实时NVIDIA GPU加速虚拟机，从而节省宝贵的时间和资源。
支持NVIDIA Tesla T4 GPU：和上一代Tesla P4采用相同的低剖面、单插槽规格，却可实现2倍的帧缓冲。
部署NVIDIA GPU Cloud的虚拟机上的AI工作负载：NGC为AI研究人员提供了适用于TensorFlow、PyTorch、MXNet、TensorRT等GPU加速的深度学习容器。

NVIDIA再秀GPU虚拟化解决方案，助力用户工作流程加速

其中，vGPU 7.x最重要的更新在于切片模式，从过去只支持从一块物理GPU虚拟出多台VM，扩展为支持将多个物理GPU分配给一个VM。如果用户对GPU的资源、对算力要求更强，可以在虚拟化平台里实现多GPU，从而满足用户对高算力的要求。

GRID通过分时切片方式提供物理GPU上的各类资源给到系统，调入的显存数据相互隔离，根据不同GPU性能水平可分割为不同vGPU资源，各vGPU资源对等。vGPU调度的性能损失小、按需分配，充分发挥硬件价值。

多GPU支持的应用场景很多，比如说在原来的图形工作站中的一些高端场景里会配两个GPU，如果在CD场景里，一个GPU做3D建模，一个GPU做仿真；在影视后期里，一个GPU用来做动画建模，另外一个GPU用来做渲染，等等。

NVIDIA再秀GPU虚拟化解决方案，助力用户工作流程加速

同时，vGPU 7.x配合了VMware最新版本的服务器虚拟化解决方案，vSphere 6.7 U1。可配合VMware在数据中心实现带有GPU的虚拟机可实现动态的热迁移，在迁移的整个过程当中，用户的业务是不中断的。

此外张洁还提到，微软推出Win10系统后，几乎所有的系统应用都需要GPU加速。根据 LakesideSoftware, Inc 白皮书，Windows 10 所需的 CPU 资源比 Windows 7 最高要高出 32%。Chrome、Skype和 Microsoft Office 等基本办公室工作效率应用程序的更新版本对计算机图形性能的要求也比以往更高。

GPU轻负载应用对于物理机来说并不是什么问题，但是对于虚拟化桌面来说，没有GPU加速能力将非常影响基本使用。vGPU 7.x针对轻负载应用提供了GPU加速能力，不仅解决了这个问题，还可以提高VM的密度，从而更经济、更有效的部署虚拟化桌面办公环境。

雷锋网在随后的访谈中了解到，vGPU 7.0还加入了对AI加速的支持，借助可配合简化AI部署的NVIDIA GPU Cloud，用户可以从云端快速地把需要做人工智能业务的用户环境拖下来进行部署。

NVIDIA再秀GPU虚拟化解决方案，助力用户工作流程加速

而在管理方面，vGPU 7.x支持无感热迁移，管理员可根据用户权限和资源需求量，动态分配vGPU资源给不同用户，无需重新载入VM即可得到vGPU资源的动态响应，用户完全不会感受到切换过程，充分保证使用连续性。

张洁向雷锋网透露，NVIDIA配合虚拟化厂商做了非常多的工作，来保证GPU资源可以实现热迁移：第一，通过vGPU解决方案保证从原端的物理服务器到目标迁移的物理服务器显存的完全同步；第二，保证GPU指令的同步，包括GPU指令缓存的同步，从而保证GPU从原服务器迁移到目标服务器的时候保证其业务不会造成任何中断。

GPU虚拟化是软件，依托于GPU硬件，由于稳定而强大的底层GPU的硬件，所以NVIDIA的软件在快速迭代下也能保证稳定性。未来，NVIDIA还将继续和VMware密切合作，充分发挥双方的优势共同满足市场的需要。