All in AI 的百度,今天(1月17日)在北京发布了百度 AI 输入法,即百度输入法的 8.0 版本。意料之中,AI 依然是重头戏,并且带来了一项技术突破、两项全新功能,以及超过竞品 20% 的相对准确率。
为了这次发布,百度特意将著名主持人、“中国好舌头”华少请到了现场担任主持,在华少的主持之下,百度副总裁、AIG 负责人王海峰、百度语音技术部总监高亮以及百度输入法负责人蔡玉婷悉数登场。
王海峰回顾了人机交互的历史,从打孔纸带到字符再到图形界面,智能手机出现后,则出现了触摸的交互方式。他认为,对于智能手机来说,模拟键盘很重要,“一部手机可以没有游戏、地图、社交软件,但是不能没有键盘”。但接着他也表示,即便现在有语音输入的加持,其实还不足够,未来的输入方式一定是“全感官输入”,一定是由 AI 技术来支撑的。
而针对百度输入法这个产品,王海峰向雷锋网在内的媒体表示,百度输入法是百度 AI 技术应用的桥头堡,新的 AI 技术将会首先应用在输入法上,未来将会赋予更多 AI 能力,提升人机交互的体验。
王海峰之后,百度语音技术部总监高亮上台,揭示了“近半年来百度语音技术上的一项突破”,即 Deep Peak 2 模型:
Deep Peak 2 模型的全称为基于 LSTM 和 CTC 的上下文无关音素组合建模,该技术将高频出现的音素联合在一起,形成一个音素组合体,然后将这个音素组合体看作一个基本建模单元。与以往使用的上下文相关建模方式相比,Deep Peak 2 模型能够充分发挥神经网络模型的参数优势,对多种说话方式的稳定性更强、准确度更高;同时能够带来更快的解码速度,提升语音识别的整体效率,目前其相对正确率已领先行业 20%。
除此之外,高亮表示,这种建模方式对中文和英文都同时适用,让产品具备了更强的中英文混合识别能力。相对正确率领先行业 20% ,是基于一个有 1400 句的黑盒测试集测试的结果,而同比之前版本的百度输入法,Deep Peak 2 模型在整体上确实提高了百度输入法的准确率。
在这项突破的支持下,新版本的百度输入法推出了两项全新功能,分别是语音速记和AR表情。雷锋网了解到,在此之前,通过语音输入,百度输入法其实已经具备了很多功能,诸如语音修改、语音中英日实时互译、语音轻声识别、场景化语音识别、语音联想表情、OCR扫描输入等。
所谓语音速记,分为单人、多人两种模式。在单人模式下,适用于记笔记、写文章、记录灵感等场景,可以连续不间断,并且同时记录下音频文件,方便后期进行修改。而多人模式则适用于一对一采访、2-4人小型会议的场景,并且应用了声纹识别,可以区分不同说话人。
在活动现场,主持人华少在58秒内用极快语速念了一段426字、中英文混杂的“广告”,输入法均做了实时转录。
所谓AR表情,基于百度的人脸识别技术和 AR 技术,用户不仅可根据相机或相册进行人脸识别、制作表情包,还支持用户通过自己的表情控制虚拟人物形象。制作出来的AR表情,可以直接通过输入法搜索、语音输入和键盘输入时展示出来。蔡玉婷解释说,百度输入法不仅仅想要通过麦克风进行语音输入,也希望控制更多的“感官”,实现多模态的输入。
同时,百度输入法还与桃花坞等中国非物质文化遗产达成合作,将中国民间传统艺术如年画等引入到表情中,让众多古典人物形象冲破次元壁垒“活”了起来,成为对中国历史文化最好的传承。
雷锋网了解到,截至目前,百度输入法这款产品上线已有8年,月活跃量达到 4 亿,而语音输入日流量达到 2.5亿,8.0安卓版本已经上线,iOS 版本正在经由苹果审核。面对未来的输入法形态,蔡玉婷认为,百度 AI 输入法未来想要做的,是听见、看见、理解用户的表达,全面提升用户输入的效率。
而这也将成为,百度和其他厂商的输入法之间,最大的不同。