作者丨王 悦
编辑丨陈彩娴
2023 年下半年,产品与应用成为 GPT 讨论的话题中心。相比模型的参数与能力,AIGC 的落地更能考验各个厂商的“秀肌肉”。
这其中,有着广大用户基础的实时互动技术(RTE)场景顺理成章地和 AIGC 进行了紧密地耦合,而游戏AI 就是两者结合的一次探索和尝试。
以家喻户晓的角色扮演类推理游戏《谁是卧底》为例,这类游戏往往同时有多位玩家在线互动,要求玩家实时反应,并输出符合常识的逻辑推理,一度被认为是 GPT 技术的“拦路虎”。但现在,也已经被国内的技术厂商完美解决!
在 10 月24-25 日声网所举办的 RTE 2023 实时互联网大会上,雷峰网发现,《谁是卧底》这种类型的游戏已经可以用 RTE ✖ AIGC 的方式“重做一遍”,可支持多名真人玩家实时在线互动,在用 RTE 技术保障音视频可以敏捷响应的同时,还可以用 AI 驱动虚拟玩家,毫不违和地融入游戏中。
雷峰网观察到,即使在游戏中需要实时计算、推理信息然后快速输出语音的情况下,AI 角色也能应对地游刃有余,没有以往的反应迟缓或答非所问,完全融入真人的游戏场景中。
此外,主持人还可以向游戏背后的大模型提出需求,大模型对其他玩家输出的信息进行理解和处理后,会将判断出的线索及时反馈给主持人,增加了游戏的丰富度与趣味度。
用 AIGC 打造虚拟角色、生成虚拟互动对话内容、进行角色之间的情感计算等,这在过去是“天方夜谭”,而今却是触手可及,这背后离不开 AI 和 RTE 技术的双双进步。
声网创始人兼 CEO 赵斌感慨,在过去的一年中,利用 AI 能力对音视频领域进行赋能,使得沉浸感与真实感的效果获得了突飞猛进的进步。
在 AIGC 技术的加持下,今年的声网 RTE 大会除了“高清”,也首次将另一个目标提到了同等高度:智能。
GPT 时代,RTE 有了新的可能性。
一、颠覆:AIGC 变革 RTE
疫情消散后,RTE 用户基数和用量保持稳定增长,RTE 场景用户规模持续扩张。
之前的 RTE 「大户」——泛娱乐领域,用户仍然保持持续增长状态,增速跑赢大盘。
而今年不同的是,流媒体直播领域对 RTC 的使用逐渐增长,其中WebRTC 流媒体直播观众数日增量 15000 人,声网极速直播用量相较于 2022 年增长 400%。
在 RTE 领域保持良好势头的同时,AI 的突飞猛进会给 RTE 的发展带来哪些新机遇?
赵斌指出了声网把握住的三个方面:
一是音频 + AI ,将以凤鸣 AI 引擎为支撑,使音频迈向极致沉浸 + 极致拟真的方向;
二是视频 + AI,将会实现画质提升、AI 美颜、虚拟背景、AI 驱动表情+动作,使视频更美、更真、更好看;
三是虚拟人 + AIGC ,虚拟人将能解决社交供需不平衡的问题,引领交互对象变化,AI 助理、AI 女友、AI 玩家会逐渐被接受,最终创造情感和情绪价值。
AIGC 除了给 RTE 带来机遇外,也切实提高了应用开发效率,同时产生了对高质量 API 的更强需求,云原生应用可能分为 API + APP 两层。
“AIGC 这么强大,我们一起用它做点什么吧!”会场屏幕的黑色背景中出现了这样一句话。随即,赵斌一页一页翻开 PPT,向大家娓娓道来 AIGC 对 RTE 领域带来的颠覆与变革:
声网首创 RTE✖️AIGC,让各种大模型都能实时语音对话,进而赋能行业场景下 AIGC 实时音频“聊天”、“自然语言对话”玩法;
在提升 QoE 体验层面,AIGC 能展示对用户留存和使用行为的强大影响,比如从表情升级高清使得打赏率大幅提升、CDN 升级极速直播使得送礼率增长 12.3%、AI 降噪开启后可降低音频流量成本10%+;
RTE + 企业服务层面,企业音视频众泰正在改变“烟囱式”系统建设,无所不达的实时网络+无所不及的音视频能力,成为企业数字化转型的重要支撑;
RTE + IoT 层面,构建人、车、家的智能化生态,实时互动正在成为智能家居新标配;
在主论坛的圆桌对话中,喜马拉雅首席科学家卢恒也表示,作为全国最大的有声内容平台,喜马拉雅从文本处理到音频内容生成的过程中都使用了大量的AI技术,目前,AIGC 生成的音频内容日均播放量已超过250万小时。
10月24日,在RTE 2023大会主论坛的首个演讲即将结束之际,赵斌对 RTE 行业的未来提出了六点展望的方向,其中一个是:AIGC 将为每个人创造替身、分身。
这一点,与随后演讲的声网首席科学家、CTO 钟声不谋而合。“AGI 将走进实时互动,实现人人可分身,帮助在应用场景中复制名师、网红,甚至普通人也将通过AI分身丰富体验、缓解时间稀缺的瓶颈。”
Founders Space创始人兼CEO 史蒂夫·霍夫曼在演讲中同样也分享了相似的观点。他认为,在AI赋能的RTE未来,我们将看到每个人都会拥有更加个性化的体验,更加动态的程序将随着图形、音频、视频的实时变化而变化,AI将带来前所未有的连接方式。在更深层次上,AI还将为人类提高生产力水平,带来动态的虚拟世界,感受到更多的沉浸体验。
赵斌预测的另一个方向是:AIGC 颠覆主流人机交互界面,触屏或键盘鼠标将变为自然语言对话。
的确,AIGC 和 RTE 正在上演一个共生、突破和颠覆的篇章。
二、突破:RTE 在多种场景下的新考验
“我们对音视频能力的要求是智能化,希望人和设备的交互性更强,对话延迟更低,在设备上呈现的视频画面也能更加清晰、智能。”在10月25日举办的 RTE✖️AIGC 闭门研讨会上,国内某 VR 眼镜的设备厂商如是说。
的确,当下各行业对音视频能力的要求已是今非昔比。
过去,更加侧重于传输的稳定性、清晰度、安全性等方面,传统 RTC 从 Communication 的视角出发,只要能满足对语义信息的高质量、高效率传递,即是优秀的表现,其使用场景也集中于音视频通话、视频会议、在线课堂等。
而当下,则更加强调用户实时互动体验的质量,RTE 从 Engagement 的视角出发,希望能够达到时空的共享,诸如 K 歌合唱、云蹦迪、虚拟演唱会等新兴场景也不断涌现。
可以说,从 RTC 到 RTE、从Communication 到 Engagement,是实时交互从基础能力向场景能力的进化。而要实现这个进化,AI 能力的添加是必不可少的部分。
尤其是疫情以来,用户对实时互动体验提出了更高要求。诸如教育、泛娱乐、金融、IoT 等各个行业也开始探索用 AI 赋能 RTE。
而线上教育尤为甚之。一方面,用户期待使用 AI 能力在线上教室中达到音频的强降噪和高保真,最好能够强力抑制 100+ 种突发噪声,降噪算法的性能较之前也需得到较大的提升;另一方面,希望看到高画质、低码率的高清视频,能够实现 2K60fps 的视频和屏幕共享实时处理。
针对线上教育领域,声网教育行业负责人钱奋在大会上分享了智慧教室方案,这是 RTE✖️AIGC 的实践之一。
智慧教室中使用声网凤鸣 AI 引擎,拥有AI 降噪能力,独创以人声为对象的深度学习建模算法,能够精准分离人声和噪声,使得师生听到的声音更纯净。同时,AI 回声消除能力可以抑制非线性回声,回声残留率低至0.1%,双讲语音保护高达 90%,使得声音更清晰。
值得一提的是,凤鸣 AI 引擎也能自适应 AI 调试音频参数,动态预估回声延时,让设备维护的过程更加更简单。
除了在线教育之外,泛娱乐领域也广泛地运用AI能力。
为了使新一代泛娱乐视频产品有“超级画质”,在保证「人更美」、「沟通更流畅」的基础上,开发了「AI 摄影师」,通过视频算法,可以实现对专业摄像机移动机位、变焦、模拟灯光效果的模拟。
目前较受欢迎的玩法有 AI 人像边缘光、 AI 镜头律动、AI 人像光影、AI 追光打光、AI 虚拟背景打光等,可以通过 AI 算法去增加画面中的特效。
「这一系列功能目前在各大APP 上是很受欢迎的,用户对这种功能的使用率几乎可以达到100%。」声网泛娱乐产品总监李斯特在论坛上演讲时说到。
同时,声网也在积极用凤鸣 AI 引擎打造下一代音频社交的能力。李斯特表示,声网实现了百人合唱、一站接入,突破了百人合唱的关键技术,采用云端合流模式,使得主伴唱人声和 BGM 通过云端合流转码同步到观众端。AI 还实现了「优声优唱」功能,能够对合唱者进行打分,优选唱得好的进入合唱流,以保证听众体验。
除此之外,声网 IoT 行业产品总监冯晓东分享了智能家居领域 RTE 和 AIGC 结合的案例、华为云媒体服务资深产品经理卢志航从政企数字化转型的角度剖析了音视频底座的重要性。
由此可见,用户更高的实时体验要求催生了声网更智能化的 RTE,声网 RTE✖️AIGC 方案也在多个领域得到了切实的应用。
三、共生:RTE 结合 AI 之后
「在过去的12个月里,我们投入了巨大的精力和时间,成为了行业里面第一家能够提供 RTE✖️AIGC 能力模块的服务商。这个能力模块使我们看到,大模型进化虽然到了今天这个程度,但绝大多数交互界面仍然是文字聊天的方式。」声网 CEO 赵斌在10月24日的主论坛演讲时说道。
文本交互的技术门槛较低,但其总是免不了单调,只能单一、线性地输入、输出问题,缺少对情感、语流语调的感知,人机之间的互动效果也不尽人意。并且,文本输入相对于语音输入,需要持续手动编辑文字,交互频率和效率也会大打折扣。
虽然最近 ChatGPT- 4 提供了语音对话能力,但基本上只能局限于自身平台,很难通用地和各种不同的大模型平台结合。
声网所提供的 RTE✖️AIGC 模块,可以跟其他模型平台结合,包括私有化部署的开源小规模模型,能够把文字交流的互动方式转化成接近自然对话的语音对话。
语音对话相比文字对话会提供更强的沉浸感,更自然的交流模式以及接近人与人对话的低延迟体验。
「这一方案还能解决 AI 互动场景整体开发上线难度大的问题,一些开发者缺少 AIGC 所需的开发经验和能力储备,也没有足够的闲暇时间进行场景调研和玩法设计,声网的整体解决方案就可以来帮助快速上线参考。」声网 AIGC 产品负责人杜浦对雷峰网(公众号:雷峰网)说到。
声网 RTE✖️AIGC SDK 能够灵活调用国内外的主流大模型,亦可以进行开源⼤模型的私有化部署。
除模型能力以外,RTE✖️AIGC 的解决方案也拥有较强的语音能力,可以实现 AI 实时变声、声音克隆,能保留多伦对话的记忆,还可以用语音驱动虚拟分身。
基于 AIGC 和 RTE 的合力,声网能以实时音视频+实时消息+虚拟形象的方式,提供相较于其他音视频解决方案更沉浸的视听体验。
以这些能力为基础,声网 AIGC 产品团队打通了 1v1 语音聊天、语音群聊、视频直播的几个产品方向。
AI 语音助手是其中的典型代表。从用户发言到 AI 助手响应对话,这其中需要完成级别所有句子、判断语音结束、AI 生成流式回答、语音合成数据返回、语音驱动嘴形者五个过程,但平均时延为 1.9 秒,高于行业内平均水平。
无论是语音助手、语音群聊还是数字人视频直播的形式,背后都需要有声网的 AIGC 能力支持。凤鸣 AI 引擎无疑是声网形成自身独特优势的「功臣」之一。
在24日下午的音视频技术专场中,声网音频算法专吴渤公布了兼顾强降噪和高保真的损失函数。为了实现 AI 音频降噪,还融合了AIVAD 避免抑制人声,融合了AIMD 以避免损伤伴奏,并分享了噪声和混响一直一体化的训练策略。
除凤鸣 AI 引擎之外,人设对话中的大语言模型技术也是另一位「功臣」。在 AI+RTE专场的演讲中,声网 AIGC 算法工程师李忻玮讲解了使用商业达模型时如何构建人设对话中人格、记忆、能力者三个关键要素,并分享了 RTE✖️AIGC 的解决方案架构图。
RTE 结合 AIGC 之后,整个生态得以「更上一层楼」。
本文作者长期关注 AIGC 的落地与应用,欢迎添加微信:s1060788086,聊聊行业,互通有无~