2006年世界杯总决赛法国对打意大利,齐祖头顶攻击马特拉齐一事相信许多足球迷都会记得。因为这一“顶”齐达内被罚红牌, 意大利轻松夺冠。不过,后来外界也发现了背后的真相:马特拉齐问候了齐达内的女性亲属。
当时,外界只看见了齐达内头顶马特拉齐,但并不知道是马特拉齐辱骂了齐达内。”如果当时就有读唇术,那么齐达内的行为就有辩解的余地了,也许也不至于被红牌出场,”东英吉利大学计算机科学家Helen Bear表示,“世界杯的历史也会被改写。”
Bear和她的同事设计出一套新的读唇算法,能够提高计算机识别自然语言的能力——比如p,b,m——等唇形看起来相似的发音。研究者在上海ICASSP上展示了他们的成果。
当然,能够进行可靠读唇术的机器的使用场景不只限于体育裁判。机器读唇术还能够应用于分析汽车或飞机的事故录像,以及辅助聋哑人交流等等。
读唇术,又叫视觉语音识别,能够先对唇形进行识别,然后转换成文字。读唇术当今面临最大的挑战是,发音嘴型能够达到10至14种,音素还打到50度种——圆唇不圆唇,甚至发音时的舌面高低也能引起嘴型变化,而同一音素还能引起多种嘴型变化。
Bear和Harvey的算法能够精确识别一个嘴型对应的特定音素。该算法经过了两个训练步骤:第一,机器学习匹配发音嘴型所能对应的音素;第二,重复发音嘴型形成概念。这些训练算法的发音素材来自于12个朗读者(7男5女)的音频录像,里面收录了200个句子。
Bear介绍,最初算法识别的准确率达到25%,每隔一段时间成绩都能有所提升。据说,现在球员都捂着嘴说话了……
图片来源:IEEE