安装完毕后的车机
A:北京明天有雨吗?
语音助手:正在为您查询北京的天气……
A:上海呢?
语音助手:正在为您查询上海的天气……
A:后天呢?
语音助手:正在为您查询上海后天的天气……
这是四维图新(Navinfo)工程师与一辆大众迈腾之间的对话,听起来还不错。没有废话,也无需重复问题,语音助手可以结合前后文来理解你的问题——用专业术语来描述,这个过程被称为“语义补全”。
替迈腾发声的是一款智能车机。这款车机由四维图新携手搜狗(Sogou)及飞歌(Flyaudio)联合推出。前者为其提供车载语音交互技术;后者则提供硬件载体。
语音交互界面
12月7日也成为老牌图商“四维图新”的车联网解决方案在后装市场的落地之日。此前,该公司一直在车联网前装市场耕耘。
称这款车机为“集三家公司大成”的作品并不为过,因为这款产品确实应用了各家的最新技术。
四维图新是老牌的地图生产商毋庸置疑,一直在为包括腾讯、百度、搜狗在内的众多互联网企业提供基础地图数据。依托于地图能力,该公司也在汽车导航技术方面有颇深的研究。后来,这些能力都顺理成章成为其在车联网整体解决方案的研发上的助推力。
2011年,四维图新发布行车系统“趣驾”(WeDrive),包括导航和相关娱乐服务,而后几年,该系统不断升级与迭代……2014年5月份,腾讯正式成为四维图新的第二大股东,当年9月,抱上“大腿”的趣驾首次将腾讯的优质互联网内容实现在车机上,包括音乐、新闻、股票以及团购等。当时,用户还可以使用微信公众账号WeCar,查询实时车况、远程控制汽车等。
今年5月在上海举办的CES Asia上,四维图新发布了趣驾WeDrive 3.0车联网解决方案,包括了纯车机方案趣驾WeCar,手机车机互联方案趣驾WeLink,趣驾OS等产品。这些产品也加深了人与车,车于车之间的连接。
多年的研究和成果,最终都集成到了此次发布的这一款智能车机系统之上,四维图新将其称为“趣驾行车助手”。
更重要的是,该助手中集成了搜狗的语音交互技术:语音识别、语义理解以及语音合成……文章一开始对话的实现,便要归功于搜狗的潜心研究。
此次,得益于腾讯的接口开放,用户在车机上登陆微信也已经实现(当然你得有无线网卡),微信可以直接分享歌曲和位置信息——可直接跳转到音乐播放和地图导航,同时支持语音播报。
当然,为了更加适应语音交互的需求这个助手的系统UI采用信息流交互方式、去APP化、卡片式扁平设计。
其实,四维图新与搜狗的合作早已有之。四维图新车联网事业部总经理李昭宏告诉雷锋网,此前,四维图新一直为搜狗地图方面提供底层数据,目前搜狗地图的市场占有率在10%左右。
而这一次为何选择搜狗在语音交互方面进行合作,他表示,语音交互将会是未来车内交互的主流,同时四维图新本身并不专精该领域,最终选择有“实力”的合作伙伴携手共进。
这里可以提一下搜狗语音交互方面的“实力”。
搜狗语音交互中心负责人王砚峰在演讲中提到,搜狗语音助手在2012年1月份上线,起初使用的是Google的引擎,后来经过自身的语料数据积累以及深度学习能力的提升,识别的准确率不断突破。目前在语音识别的准确率上达到了97%(科大讯飞、百度方面同样可以做到)。同时在方言识别以及实时语音转文字等方面也有所建树。
不过,跟随苹果Siri火起来的像搜狗语音助手这样的“通用型语音助理”,在以往的很长一段时间只是自娱自乐,没有实际效用。搜狗意识到必须转变思路,将精力转移到垂直型场景当中。通过对垂直场景的深度优化,让语音交互技术为更多人所用。
最终,车内导航成为搜狗看中的一个垂直场景。今年8月3日,搜狗发布了“知音”引擎。他们展示了针对车内导航场景所做的优化,最明显的变化是支持“多轮对话”。而这样的“多轮对话”已经在与四维合作的这款车机中有所体现。
目前,该车机上语音交互唤醒的方式还是要依靠手指进行点触,稍显保守。但王砚峰给出的解释是,目前的语音指令唤醒的方式并不尽如人意。
当然,除了文首提及的“语义补全”以及“多轮对话”功能,该语音交互系统还支持场景与场景间的自由切换。
比如在导航界面输入目的地之后,在没有确认或取消的情况下,你可以使用语音点一首歌,那么界面将会直接跳转至歌曲播放界面。据讲解的工程师介绍,这是因为系统没有做“强制收敛”(不需要选择“确认”或者“取消”也可以接收下一下命令),而是非常自由、开放。
卡片式扁平设计
当然,这些只是雷锋网体验到部分特性,更多的亮点(或者槽点)还有待用户去发现。
该工程师告诉雷锋网,目前车机上的麦克风没有内置降噪模块,而是搜狗在云端处理噪声,这就降低了硬件的成本。
针对此,王砚峰给出了更加详细的解释:“首先,我们在数据上,采用了上万个小时的车载语音数据,把车内的各种噪音加在各种真实的用户数据上,让它变成一种带噪音的数据,语音模型就可以认出来数据上的噪音是什么、用户的声音是什么。”
他还提到,这数千小时的车噪数据,是到不同的汽车厂商及不同车型中真实驾驶时录下来的,这些数据与用户在输入法的领域数据结合在一起,产生一个比较符合真实车载环境的数据效果。此外,还有自动增益技术,使人声在噪声中更加突出。降噪算法也是一大助力,但他没有解释细节。
诚然,“丰富”的软件系统以及“聪明”的语音交互,要让观众实际享用到,合适的硬件载体必不可少。
四维图新选择的是一家总部位于广州的汽车音响公司,成立于2007年,从事汽车音响和导航系统研发,这些年智能车机领域累积了较为深厚的设计、制造经验。
据飞歌渠道事业部营销总监周海生介绍,今年1月份,他们已经上市了最新一代车机“黄金高8Ⅱ”。这款车机使用高通的芯片,支持WIFI和4G全网通(明年将会使用四维图新子公司杰发科技的3561芯片),搭载高清全数字视频信号传输,同时支持DSP无损音质播放,搭载车规级高清电容大屏,使用双麦克风收音技术。
耕耘10多年来,如今飞歌在车载硬件方面每年的出货量在100万台左右,以往是卡带机和CD机。互联网车机方面近3年来销量也在不断上升。
周海生对于存量车的后装市场很有信心,所以对于这款全新智能车机的出货保持乐观态度。今年11月份,已经有一批车主进行了最新车机硬件及系统的升级(支持OTA)。明年,该公司将对旗下全产品系列进行最新系统的覆盖,服务百万车主。
价格方面,周海生表示,经过三方商议,将维持原有硬件的定价——2500-3500左右。三家公司具体的分成方面,尚未可知。
未来,四维图新将“立足前装、发力后装”,依凭过往在前装领域的经验,将其应用到后装领域。至于为何要选择后装。李昭宏表示,首先产品要进入前装市场周期很长;其次,后装产品离真实用户更近,可以拿到一手的用户反馈,进行迭代,提升产品用户体验和稳定性。
为了适应后装领域的快节奏,四维图新车联网项目负责人莫慧表示,公司还专门成立了相关的工作组,每天对系统进行迭代,最快的1天进行了3次软件更新。
同时,四维图新为了将“集成者”的角色定位发挥到最大效用,“趣驾行车助手”还提供跨平台能力,有相应的API适应不同的操作系统,应用也可以通过接口进行适配,同时语音识别、语义服务、以及应用方面的接入与集成,都可以进行一体化、一站式集成。
针对无法回避的盈利模式,李昭宏提到,广告、保险和金融都是可能的方向,但是不去尝试,谁也不知道哪种商业模式成立。
而从做产品的角度看,只有将车机做得比手机等移动设备“一样好用甚至更好”时,用户才有更大的买单可能性,从而摆脱目前不温不火的市场状况。
而这,应该是这三家公司至少在近期需要去努力的方向。