世界上首个3D多语言AI新闻记者诞生!
近日,字节跳动AI Lab联合上海交大研究团队发布了全新升级版AI新闻记者Xiaomingbot。Xiaomingbot最早诞生于2016年,曾在2017年获得吴文俊人工智能技术发明奖。(吴文俊奖被誉为中国智能科学科技最高奖,代表着中国人工智能领域的最高荣誉)。
据了解,此次最新版Xiaomingbot除了新闻写作的基本功能外,被赋予了3D动画形象,能够配合文本内容完成多种语言的新闻播报任务。
Xiaomingbot
研究人员介绍,Xiaomingbot软件系统内含新闻生成器、翻译器和跨语言阅读器和头像动画,能够独立完成新闻报道的整套工作流程。接下来,我们透过一场大型体育赛事的demo视频,来看下Xiaomingbot同学的业务能力到底如何?
首先是新闻报道基本任务-写作。可以看出,Xiaomingbot的文本生成几乎是与比赛进展同步进行。当比赛中出现进球等特殊赛点时,Xiaoming会自动抓取信息转换成对应的文本内容。如图中:
左侧为比赛视频,右侧为生成的新闻
运动员Chadli成功进球赢得一分,Xiaomingbot会实时生成文本:
第90分钟时,纳赛尔·查德利(Nacer Chadli)抓住了机会,为比利时夺得一分,目前比分为3-2。
妥妥的专业现场解说员。除此之外,Xiaomingbot还能够根据数据推理出比赛结果,并附上对应的图片。
比利时对战日本以3:2获胜
在2018年世界杯第16轮比赛中,比利时与日本在7月3日凌晨2点展开对战。比利时球员Jan vertonghen,Nacer Chadli,Marouane Fellaini Bakkioui各进一球,赢得1分,日本选手Genki Haraguchi和Takashi Inui各进一球,最终比利时以3:2战胜日本。
研究人员介绍,Xiaomingbot对数据很敏感,如比赛得分、股价变化、营收增减等,因此它非常擅长体育赛事和财经新闻领域的写作。
其次是多语言翻译功能。Xiongmingbot能够对同一新闻生成多种语言形式,为全球用户提供新闻报道。
分别为葡萄牙语、中文和日语
最重要的是,以上不同语言的文本内容可通过3D动画实时语音播报。可以看出其头部、唇部能够配合文本内容同步移动,整体效果逼真、自然。
目前,Xiaomingbot在媒体平台开通了小明看世界、小明财经等多个社交账号,已撰写超过了60万篇章,吸引了超过15万名关注者。看来其新闻报道的专业度还是受到广泛认可的。
这篇名为《Xiaomingbot: A Multilingual Robot News Reporter》论文已经对外公开。通过论文中的完整工作流程图,我们可以看到,Xiaomingbot首先需要基于比赛视频,输出完整文本信息,并在此基础上提取最重要和最相关的内容,形成文本摘要,进而将文本内容,输送至机器翻译、文本到语音转化和头像动画三个模块,最终呈现出了相应的语音和视觉效果。
完整示例
从Xiongmingbot的系统架构来看,以上功能主要通过四个模块来实现,接下来,我们来简要说明以上阶段所涉及到的模型,以及它们是如何工作的。
Xiaomingbot系统架构
新闻生成:由数据到文本的转化和文本总结两个环节构成;
此前我们提到,Xiongmingbot擅长数据的监测和抓取。为了将数据转化为文本,论文中采用了基于table2text技术的模板转化的方法。
研究人员针对比赛阶段、类型等多个维度设计了不同类型的模板,这些模板通常包含了时间、得分、犯规、球员,球队名称及其他多项指标。Xiaomingbot系统会根据文本需要从中选择对应的模板类型,并进一步转化成文本。
除去数据部分,Xiongmingbot还需要基于句子完成文本提取和抽象总结两项任务。在这里,研究人员训练了两个汇总模型。一种是基于BERT的常规文本摘要模型。采用了TTNews数据集进行训练,其包括了50,000份带有人工书面摘要的中文文件。另外一种是针对诸如足球等体育赛事而训练出的特殊模型。该模型能够考虑足球比赛结构,以不同方式处理诸如犯规等重要事件,更好地总结比赛报告。
新闻翻译:采用基于Transformer架构的机器模型实时翻译。
在这里,研究人员预先训练了多个神经机器翻译模型,并采用了最先进的Transformer Big Model作为NMT(Neural Machine Translation Systerm)组件。
另外,为了加快翻译速度,还创建了基于CUDA(Compute Unified Device Architecture)的NMT系统,CUDA是由NVIDIA推出的通用并行计算架构,它比Transformer架构的推理速度还要快10倍。
该模型的所使用的训练数据集同样非常庞大,中英转化的数据集包含了一亿个并行的句子对,中日文包含了6000万个并行句子对。
新闻读取:采用文本到语音(TTS)合成模型,实现跨语言输出。
研究人员所使用的TTS合成模型,只需要一种语言的少量语音作为训练数据。如中文语言处理,仅包含数百名发言人的语音。另外,该TTS模型具有跨语言的语音克隆机制,可以简单理解为,它可以以与我们之前提供的完全相同的声音以不同的语言实现新闻播报。
头像动画:同步唇部与语音输出动作,并完成3D渲染
Xiaomingbot可以生成与TTS模型输出音频的同步嘴唇动作,并渲染头发,衣服等。对于嘴唇动作,研究人员采用的是序列-序列模型(Seq2Seq)。该模型的输入序列是从TTS模型中提取的音素和相应的持续时间,而输出序列则是口型权重(嘴唇运动所产生的动画参数)。通过这些不同的口型权重,Xiaomingbot可以做出许多不同的面部表情。对于眼部、头发及皮肤的渲染,采用了3D渲染引擎Unity和不同的算法。
最后,研究人员表示,Xiaomingbot系统目前只是建构多功能AI系统的首次尝试。其在文本生成、讲话、表达等方面还有很大的局限性和进步空间。未来我们将会从可扩展的工作领域和对话交互能力两个方向进行改进和提升。
最后为大家奉上Xiaomingbot体育赛事报道的完整视频:
引用链接:雷锋网雷锋网雷锋网
论文地址:https://arxiv.org/pdf/2007.08005.pdf