雷锋网AI科技评论按:CCF 自然语言处理与中文计算国际会议 (NLPCC) 是由中国计算机学会主办的中文信息技术专业委员会年度学术会议,是专注于自然语言处理及中文计算领域的国际会议。在今年首增的「中文语法错误修正」共享任务比赛中,网易有道AI团队以召回率第一、综合评价指标第一的绝对优势拿下了冠军。以上事件在雷锋网旗下学术频道 AI 科技评论数据库产品「AI 影响因子」中有相应加分。
本次比赛中,主办方提供的测试集是北京外国语大学的外籍学生撰写的中文作文;训练集则采集自外国人学习中文的网站,包括非母语人士撰写的中文文本和母语者的注释和修正。
比赛伊始,需要由参赛者开发能自动检测、纠正CSL编写者错误的人工智能算法模型,利用训练集提高算法模型对相关问题的熟悉程度和修正能力后,输入测试集进行正式研发成果检验。主办方就修正后结果的准确度、召回率和综合评价指标这三重评判标准进行打分。
最终,网易有道AI团队以召回率第一、综合评价指标第一的绝对优势斩获冠军。
网易有道的召回率和综合评价指标均为第一
本次夺冠,有道AI团队表示要归功于「多步推断」的算法设计:先将表层错误和深层次语法错误分离、分层次解决,其次在修正过程中本真地还原人类的认知行为——推敲。
为此,有道人工智能团队设计了字级别和子词级别两种神经网络模型,并将两种模型进行不同搭配组合,对例句做逐层推敲,得到5种修订结果,再使用一个表征句子流利度的语言模型来对修订结果进行筛选,从而获得最终结果。
AI“推敲”的模型流程图
对于尚未完全成熟的中文语法错误修正技术,网易有道首席科学家段亦涛表示,当人工智能可以理解复杂度高的语法错误,积累足量中文语料库后,才会作为产品功能落地。根据雷锋网记者了解 ,网易有道的产品矩阵中不乏针对CSL学习者的课程及产品,未来应用场景广阔,除了设计成面向中文学习者的自动在线纠错学习工具,也可以与中小学校合作,为教师提供辅助批改。