不做硬件的腾讯会议，凭什么做好硬件生态？

腾讯会议

作者：杨丽

2021/07/09 11:58

作者 | 杨丽

你真得了解视频会议吗？

过去，很多医疗单位、科研院所在苦恼一件事：尽管院方接入或自主开发了一套远程会诊系统，以满足对外远程病患会诊，对内实现医护人员的日常学术交流、专家培训等方面的需要。但他们越来越发现，传统的远程会诊系统往往缺乏多屏互动的协作性，且成本高、不便捷。相比之下，云视频会议软硬一体化解决方案的出现，正悄悄改变着这些曾经让他们所苦恼的事情。

不久前，腾讯会议Rooms产品参与了一个医疗行业展的方案展示。方案中，通过视频会议，我们看到医生与医生之间，患者与医生之间，有了一段非常高质量的线上沟通。

普遍来讲，想要完成一场高质量的云视频会议，多数产品会在网络丢包率上下足功夫，因为丢包往往会直接影响接收端解码出卡顿、不连续的声音或图像。常见的手段，除了优化编解码算法的比拼，还可以利用AI算法还原出图像、声音的本来面貌。目前大量的科研工作投放在这个模块上，并取得了很多阶段性成效。

这一次，腾讯会议旗下腾讯天籁实验室推出的天籁语音模组，则尝试从另一个维度解决问题。

在声音传输之前的一步重要环节，即信源的编码阶段，往往会遇到各种噪音、混响、鸡尾酒环境等声音传播的影响，是否能对信源音频进行更好地“预处理”？

经雷锋网一番探究得知，天籁团队通过技术创新，将多个MEMS麦克风板嵌入到会议大屏等硬件设备上，可实现180度广角、12米超长距离拾音，在双讲、噪声回声消除等方面均有显而易见的突破。

只不过，这款语音模组目前主要应用于腾讯会议Rooms专款机型上，并通过技术授权的方式开放给Rooms专款硬件合作伙伴，已经实现初步量产。

是不是挺香？

量产前的努力

媒体沟通中，腾讯天籁实验室总经理商世东指出，“天籁语音模组希望解决的是，能够在比较复杂、恶劣的声学场景下也能提供一个清晰、流畅、安静的音频体验。”

我们知道，在一般的工程环境中，在相似的问题、场景下使用相似的处理方法，尽管有可能也是来自学界给出的一些非常有效的模型或技术手段，但如果没有能力非常强的开发人员，针对特定问题或场景设计新的模块和环节，很难会得到非常好的效果。

有时候，现实生活中的声学场景远比实验室里的复杂的多。以此次天籁语音模组重点优化的一个声学问题——远场拾音为例。

腾讯会议天籁实验室技术研发专家余涛告诉雷锋网：

“仅靠一个纯粹的语音或音频算法，即便是具备了训练得很强的深度学习模型，想要比较好地解决远场语音的问题还是比较难的。”

在他看来，物理世界中的声音信号受到干扰、衰减的因素是非常多的，因而带来的技术挑战也是成百倍增加的。

“比如噪声问题。通常声音的传播距离增加一倍，能量会衰减6个dB，也就是幅度衰减一半，这导致信噪比的恶劣程度会达到-10、-20的程度，噪声的特性也会发生变化。比如说话人通常所处的会议室空间里，有空调噪声、键盘噪声，是充满整个拾音频带的。不同于具有稀疏性的非平稳噪声，这对远场噪音处理会有非常多的挑战。

同样，很多情况下很多近场语音很多，这就造成了房间的传输函数带来了混响效应；而语音传输到麦克风，直达波也会有变化，比如说话人是侧着说话，或者面对地板说话，没有直达波的触达等等这种情况。”

不做硬件的腾讯会议，凭什么做好硬件生态？

图：腾讯天籁实验室资深研究员刘成现场演示

不难发现，天籁团队采用的策略，是从声学层面、硬件设计层面，跟强大的算法能力相结合，综合性提升远场拾音能力。

在面向量产和推进商业化之前，天籁团队已经进行了内外部各种实际场景的测试。

余涛表示，“确实，从实验室里搬出来的黑科技产品，第一次做灰度测试确实面临着很多挑战，随着挑战被持续攻克，最终我们发现至少90%的场景可以做到一个非常好的体验。”

当然，这剩下的10%的场景可能会非常极端。比如有些场景中，尤其是教室、培训室等某些更加开放空间里，一个房间里坐了四、五十个人，技术挑战的量级会呈指数增加。

不做硬件，但重视硬件生态

据余涛向雷锋网透露，“现在与腾讯会议合作的硬件伙伴，已经量产的大屏包括86寸、65寸。其中，65寸是面向中小型会议室，86寸大屏是面向中大型会议室。可以说天籁语音模组已经达到了量产机型的这样一个技术指标。”

2020年9月，腾讯会议从个人版向企业版拓展的同时，就甩出了一张牌——智能会议室解决方案“腾讯会议Rooms”。简单来讲，腾讯会议Rooms是专为会议室打造的软件系统，提供音视频会议、无线投屏、触屏式白板的集成会议体验，同时提供软硬一体的完整视频会议解决方案。通过无缝衔接，以提升整场视频会议的沉浸式体验。

不难看出，腾讯会议自己不做硬件，不做大屏，但对硬件伙伴生态越来越重视了。

据了解，腾讯天籁目前已经通过开放音视频认证标准，吸引到一批硬件设备厂商腾讯会议的硬件生态中，包括连接器、一体机、智能大屏、扬声器麦克风、摄像头等等。

余涛表示，“对于硬件伙伴而言，它们在音视频上的能力是参差不齐的。我们推出这种类似于交钥匙的音视频解决方案，其实是希望能够提高它们的音视频质量，能够让硬件厂商直接低门槛地集成解决方案，快速形成产品能力。这也是天籁语音模组推出最希望达到的商业目的。”

后记

还记得腾讯会议在2019年末刚刚发布时，有一家视频会议硬件服务商曾说，“大概只有腾讯才能将他们过去经常相互PK的对手请到一起，让大家坐在一起，相谈甚欢。”

这或许也是腾讯会议需要承担的一种角色：基于互联网平台上包括云基础设施的能力、实时音视频通信的能力、机器学习多模态的能力，促成软硬件会议产品更好的交互。

而除了摆在眼前的种种技术攻关外，天籁团队本身隶属于腾讯会议，这意味着尽管它不是产品部门，但却与产品部门有着非常紧密的配合和支撑：需要给产品做贡献，同时又能基于大量场景、数据进行前沿技术相关的工作。

这也大概是为什么初出两年的腾讯会议，依然有底气和本事成立专门的实验室，对视频会议交互中存在的高难度技术挑战进行长期的研究和攻克。

站在待解决的问题上，腾讯会议还有很多的想象空间。