NVIDIA出品：AI视频通话神器，不仅高清，流畅无噪音，还能给你换张脸，增强交互体验

NVIDIA 视频通话 AI

作者：贝爽

2020/10/10 17:17

“视频又卡住了”，“噪音太大，听不清你讲话”，“这画质也太有年代感了.....”

参加视频通话时，你是不是也经常会出现以上状况？

今年疫情突发，上班族都体验了一把在线云办公的快感。

但让人抓狂的是，每当谈到核心业务时，视频通话总会出现卡顿、噪音等意外状况。

最近小编发现一款AI工具，可以一键解决以上所有烦恼。它就是NVIDIA推出的一款Cloud-AI视频流平台——Maxine。

据了解，它可以在视频通话中，提供高清画质、噪音消除、目光校正，以及实时转录、翻译等功能。

更重要的是，它还可以支持电脑、平板、手机等多种类型的设备。

NVIDIA出品：AI视频通话神器，不仅高清，流畅无噪音，还能给你换张脸，增强交互体验

Maxine：高清、流畅无噪音

疫情虽然已经趋于平缓，办公模式也回到了线下，但视频通话也成为了一种常用的办公方式。如NVIDIA加速计算副总裁兼总经理伊恩·巴克（Ian Buck）所说：“视频会议现在已成为了日常生活的一部分，它可帮助数百万人工作，学习，娱乐，甚至就医。”

NVIDIA出品：AI视频通话神器，不仅高清，流畅无噪音，还能给你换张脸，增强交互体验

因此，英伟达推出了这款基于AI的云原生流视频平台Maxine，用于解决当前视频通话存在的最大问题。

对于视频通话来讲，首先要解决的就是画质、噪音以及流畅度等基本问题。从NVIDIA官网了解到，Maxine采用超分辨率（Super-Resolution）技术，可以实时将低分辨率视频转换为高分辨率视频。

如图，使用后的视频像素被提升至720p。另外，AI平台也增加了消除伪影的功能，可以使得画面更清晰。

NVIDIA出品：AI视频通话神器，不仅高清，流畅无噪音，还能给你换张脸，增强交互体验

其次，Maxine平台中的AI模块可以过滤掉常见的背景噪音，如敲击键盘、主机运行的嗡嗡声、家里吸尘器的声音等。

同时，为了更好地呈现通话中的你日通，Maxine还提供了实时翻译、转录字幕的功能。

NVIDIA出品：AI视频通话神器，不仅高清，流畅无噪音，还能给你换张脸，增强交互体验

最重要的是借助其视频压缩技术，可以有效减少数据传输的带宽。据了解，Maxine的可以将其减少到H.264视频压缩标准所需带宽的十分之一，可以及大地增加视频的流畅度。

大量用户同时使用云视频服务时，会对带宽带来很大压力，因此用户经常出现掉线、卡顿等现象。对此，NVIDIA高级产品总监安德鲁·佩奇（Andrew page）称，他们的解决方案是将带宽问题变成计算问题，因为相比于增加带宽，增加计算更为容易。

NVIDIA出品：AI视频通话神器，不仅高清，流畅无噪音，还能给你换张脸，增强交互体验

具体来说，Maxine 采用的AI视频压缩技术的核心在于它不是对整个屏幕的像素进行流式处理，而是分析通话中每个人的面部关键点，然后在另一端的视频中重新设置人脸的动画，如此一来便可以大幅降低的数据的传输量，同时还可以保证视频传输的质量。

不过，以上在NVIDIA看来只是一个视频通话工具的基本功能，而它的目标是打造更强用户体验的AI工具。

采用视频通话，而是不语音通话的一个基本诉求就是有面对面对视的交互感，但通常情况下，为了有更顺畅的交流，我们不得不紧盯着摄像头，而不是屏幕中正在对话的人。

现在Maxine可以缓解这一尴尬，它通过重建视频中的人脸图像，可以来让你看起来正在与对方进行眼神交流。

NVIDIA出品：AI视频通话神器，不仅高清，流畅无噪音，还能给你换张脸，增强交互体验

换句话说，AI通过自动生成一张虚拟人脸来自动调整面部的角度，让视频通话者看起来正自由地看着屏幕。

研究人员介绍称：

“借助计算机视觉技术，我们可以从多个角度定位一个人的头部，增强面对面交流的感觉，这将有助于人们进行更自然的对话。”

同时他也介绍称，这项假脸生成技术采用的正是生成式对抗网络（generative antivative networks，GAN）。

GAN曾被AI教父Yann LeCun称作是“过去10年机器学习中最有趣的想法”，它的原理是让两个神经网络相互竞争，来生成与原始图像高度吻合的虚假图像。风靡一时的DeepFake软件背后原理采用的均是GAN。

研究人员介绍，视频连接后，发送端会传输交互者面部周围的关键点数据，如鼻子、眼睛、嘴巴等，接受端的GAN会用这些点和原始静态图像一起来激活通话屏幕中的虚拟人脸。

另外，在面对面互动体验方面，Maxine还增加了动画头像交互和虚拟助手功能。动画头像交互允许视频通话者根据喜好选择动画虚拟头像，这些头像虽不是真实的，但可以通过交互者的声音和情绪基调自动驱动。

而虚拟助手内置了NVIDIA Jarvis对话式AI框架，具有为实时性能而优化的最新模型，可以进行语音识别、语言理解以及语音生成的虚拟助手。比如在视频通话中，交互者可以让虚拟助手来记笔记、设置动作项目以及用类似人类的声音回答问题。

那么，这款集高清、去噪、低延时及强交互体验的视频通话工具，你要来体验一下吗？

参考链接：雷锋网雷锋网雷锋网

https://blogs.nvidia.com/blog/2020/10/05/gan-video-conferencing-maxine/