人工智能在传统行业遍地开花已经不是新鲜事,但是进入地铁这种人流量大且复杂、噪声极强的环境中,似乎还是第一次。雷锋网消息,昨日(12月5日),上海地铁携手阿里云,落地语音购票,打造首个 AI 地铁城的消息刷了屏。
雷锋网就此采访了阿里云 iDST 智能语音交互团队总监的鄢志杰,他也是该项目中语音购票技术的总负责人,聊了聊技术落地背后的故事。
大概半年前,担任阿里云 iDST 智能语音交互团队总监的鄢志杰,和同事参加某个机器人展会。在展会上,他们发现很多具有语音交互功能的机器人“听力不好”,参展的观众需要抱着机器人的头,几乎贴在上面才能完成一两句对话,主要原因就是环境噪音太强,导致机器人无法分辨“要听什么”。
在语音交互领域,“抗噪”是个难点。市面上相对成熟的语音交互产品,几乎全部集中在家庭、办公等安静场景中,通过麦克风阵列,可以让机器轻易分辨“谁是说话人”,而类似机场、高铁、咖啡厅、超市、展厅强噪音场景则没有。
鄢志杰当下就想,如何才能突破旧有的使用场景,在强噪音的环境下让人和机器进行语音交互。
面对这个具体的问题, iDST 的人工智能专家们想到了融合语音、视觉两种模态的方法。具体来说,如果只通过扩大麦克风阵列,提升信噪比的单一方法,还是不够,如果有了摄像头之后,就可以通过视觉识别是否来人,来人是否讲话,判断之后用算法调整麦克风位置,进行定向增强。这样,就可以让一个强噪音环境变得和普通交互场景一样了。
值得一提的是,采用视觉来确定目标说话人后,还带来一个更大的惊喜。此前语音交互产品,都需要通过“唤醒词”,让用户唤醒,但“误唤醒率”是个问题。而采用视觉后,机器可以通过人脸、嘴巴来判断说话人是否开口说话,从而彻底免去了“唤醒”这一步,从而也就解决了“误唤醒率”的问题。
当然,实际工程化的过程并不像讲起来这么简单。鄢志杰坦陈,这种融合多模态的方式,学术界其实早有研究,但实际落地的产品似乎还没见到。
技术的问题解决之后, iDST 在商店(嘈杂环境)里放了一台可以使用语音来买咖啡的机器,用的就是语音+视觉的解决方案。这或许也是这种方案下,第一个落地的实际产品。
两周之后,这个方案落地上海地铁,咖啡机换成了购票机,乘客可以通过语音进行购票,扫码支付,全程只需不到10秒。
口说有凭,自由通行
上海作为全球里程数最长的地铁,共有 17 条线路,367个站点,以连接两大机场、虹桥火车站、川沙、陆家嘴、龙阳路磁浮站、南京路、静安寺,横贯东西的2号线为例,全天都处在拥挤状态,日客流量接近百万。这条线路因为连接着交通枢纽和重要地标,充满了来自全球各地不同语言的人,购票之难、时间之长可想而知。
采用阿里云 iDST 的语音购票方案后,每个人只需要走近售票机,对售票机说出你想要去的地方,售票机就能够自动向乘客推荐线路和站点,乘客扫码或刷脸即可购票,全程不过10秒。
举例来说,在此之前如果想去东方明珠,需要先拿出手机,打开地图应用,查询公交线路,走进推荐的地铁站,在售票机上通过点击、投币来买票,上地铁。而现在,乘客可以直接进入最近的地铁站,对售票机说“我要去东方明珠”,售票机将自动建议乘客坐到“陆家嘴站”,然后弹出二维码进行支付。
鄢志杰向雷锋网表示,试运行阶段,目前该机器可以支持带口音的普通话,但未来希望能够覆盖更多的语种和方言,满足不同地方的乘客需求。
同时,该技术在强噪音环境下的通用性,也方便将此解决办法复制到机场、高铁、商店等更多场景中。
除了语音购票技术外,亮相上海地铁的还有阿里云的“刷脸进站”、“智能客流监测”两项技术。
雷锋网了解到,正在研发中的新型进站闸机上,新增了一块屏幕,用户经过屏幕时,几乎无需停留,屏幕就依托阿里云人脸识别技术,完成了人脸识别,开启闸机,供乘客通过。
系统所采用的阿里云人脸识别算法具备业内领先的精度和效率,在国际公开的人脸比对评测LFW中,精度超过99.5%;在身份认证1:1比对场景,误识率0.1%条件下,实测精度大于99%;1:3000身份识别场景,现场实测识别率>95%。
而智能客流分析技术则是基于视频识别、数据分析机器学习和阿里云的数据可视化技术,替代肉眼,观察车站的客流速度、密度、拥挤指数等,同时结合地铁列车运营信息、外部天气信息数据,对未来流量进行预测,帮助地铁工作人员进行客流疏导、应急调度、危险防范等,保障乘客安全。
目前,这些技术已经完成实验室测试,进入样机研制阶段,未来都将应用于上海地铁。相信在不久之后,我们就可以享受更为智慧、方便的公共交通服务了。