作者 | 杨丽
你真得了解视频会议吗?
过去,很多医疗单位、科研院所在苦恼一件事:尽管院方接入或自主开发了一套远程会诊系统,以满足对外远程病患会诊,对内实现医护人员的日常学术交流、专家培训等方面的需要。但他们越来越发现,传统的远程会诊系统往往缺乏多屏互动的协作性,且成本高、不便捷。相比之下,云视频会议软硬一体化解决方案的出现,正悄悄改变着这些曾经让他们所苦恼的事情。
不久前,腾讯会议Rooms产品参与了一个医疗行业展的方案展示。方案中,通过视频会议,我们看到医生与医生之间,患者与医生之间,有了一段非常高质量的线上沟通。
普遍来讲,想要完成一场高质量的云视频会议,多数产品会在网络丢包率上下足功夫,因为丢包往往会直接影响接收端解码出卡顿、不连续的声音或图像。常见的手段,除了优化编解码算法的比拼,还可以利用AI算法还原出图像、声音的本来面貌。目前大量的科研工作投放在这个模块上,并取得了很多阶段性成效。
这一次,腾讯会议旗下腾讯天籁实验室推出的天籁语音模组,则尝试从另一个维度解决问题。
在声音传输之前的一步重要环节,即信源的编码阶段,往往会遇到各种噪音、混响、鸡尾酒环境等声音传播的影响,是否能对信源音频进行更好地“预处理”?
经雷锋网一番探究得知,天籁团队通过技术创新,将多个MEMS麦克风板嵌入到会议大屏等硬件设备上,可实现180度广角、12米超长距离拾音,在双讲、噪声回声消除等方面均有显而易见的突破。
只不过,这款语音模组目前主要应用于腾讯会议Rooms专款机型上,并通过技术授权的方式开放给Rooms专款硬件合作伙伴,已经实现初步量产。
是不是挺香?
量产前的努力
媒体沟通中,腾讯天籁实验室总经理商世东指出,“天籁语音模组希望解决的是,能够在比较复杂、恶劣的声学场景下也能提供一个清晰、流畅、安静的音频体验。”
我们知道,在一般的工程环境中,在相似的问题、场景下使用相似的处理方法,尽管有可能也是来自学界给出的一些非常有效的模型或技术手段,但如果没有能力非常强的开发人员,针对特定问题或场景设计新的模块和环节,很难会得到非常好的效果。
有时候,现实生活中的声学场景远比实验室里的复杂的多。以此次天籁语音模组重点优化的一个声学问题——远场拾音为例。
腾讯会议天籁实验室技术研发专家余涛告诉雷锋网:
“仅靠一个纯粹的语音或音频算法,即便是具备了训练得很强的深度学习模型,想要比较好地解决远场语音的问题还是比较难的。”
在他看来,物理世界中的声音信号受到干扰、衰减的因素是非常多的,因而带来的技术挑战也是成百倍增加的。
“比如噪声问题。通常声音的传播距离增加一倍,能量会衰减6个dB,也就是幅度衰减一半,这导致信噪比的恶劣程度会达到-10、-20的程度,噪声的特性也会发生变化。比如说话人通常所处的会议室空间里,有空调噪声、键盘噪声,是充满整个拾音频带的。不同于具有稀疏性的非平稳噪声,这对远场噪音处理会有非常多的挑战。
同样,很多情况下很多近场语音很多,这就造成了房间的传输函数带来了混响效应;而语音传输到麦克风,直达波也会有变化,比如说话人是侧着说话,或者面对地板说话,没有直达波的触达等等这种情况。”
图:腾讯天籁实验室资深研究员刘成 现场演示
不难发现,天籁团队采用的策略,是从声学层面、硬件设计层面,跟强大的算法能力相结合,综合性提升远场拾音能力。
在面向量产和推进商业化之前,天籁团队已经进行了内外部各种实际场景的测试。
余涛表示,“确实,从实验室里搬出来的黑科技产品,第一次做灰度测试确实面临着很多挑战,随着挑战被持续攻克,最终我们发现至少90%的场景可以做到一个非常好的体验。”
当然,这剩下的10%的场景可能会非常极端。比如有些场景中,尤其是教室、培训室等某些更加开放空间里,一个房间里坐了四、五十个人,技术挑战的量级会呈指数增加。
不做硬件,但重视硬件生态
据余涛向雷锋网透露,“现在与腾讯会议合作的硬件伙伴,已经量产的大屏包括86寸、65寸。其中,65寸是面向中小型会议室,86寸大屏是面向中大型会议室。可以说天籁语音模组已经达到了量产机型的这样一个技术指标。”
2020年9月,腾讯会议从个人版向企业版拓展的同时,就甩出了一张牌——智能会议室解决方案“腾讯会议Rooms”。简单来讲,腾讯会议Rooms是专为会议室打造的软件系统,提供音视频会议、无线投屏、触屏式白板的集成会议体验,同时提供软硬一体的完整视频会议解决方案。通过无缝衔接,以提升整场视频会议的沉浸式体验。
不难看出,腾讯会议自己不做硬件,不做大屏,但对硬件伙伴生态越来越重视了。
据了解,腾讯天籁目前已经通过开放音视频认证标准,吸引到一批硬件设备厂商腾讯会议的硬件生态中,包括连接器、一体机、智能大屏、扬声器麦克风、摄像头等等。
余涛表示,“对于硬件伙伴而言,它们在音视频上的能力是参差不齐的。我们推出这种类似于交钥匙的音视频解决方案,其实是希望能够提高它们的音视频质量,能够让硬件厂商直接低门槛地集成解决方案,快速形成产品能力。这也是天籁语音模组推出最希望达到的商业目的。”
后记
还记得腾讯会议在2019年末刚刚发布时,有一家视频会议硬件服务商曾说,“大概只有腾讯才能将他们过去经常相互PK的对手请到一起,让大家坐在一起,相谈甚欢。”
这或许也是腾讯会议需要承担的一种角色:基于互联网平台上包括云基础设施的能力、实时音视频通信的能力、机器学习多模态的能力,促成软硬件会议产品更好的交互。
而除了摆在眼前的种种技术攻关外,天籁团队本身隶属于腾讯会议,这意味着尽管它不是产品部门,但却与产品部门有着非常紧密的配合和支撑:需要给产品做贡献,同时又能基于大量场景、数据进行前沿技术相关的工作。
这也大概是为什么初出两年的腾讯会议,依然有底气和本事成立专门的实验室,对视频会议交互中存在的高难度技术挑战进行长期的研究和攻克。
站在待解决的问题上,腾讯会议还有很多的想象空间。