专访上海大学倪兰教授：语言学与手语识别技术的融合突破，解锁交流障碍｜GAIR live

手语识别倪兰手语语言学大语言模型

作者：任平

2024/03/14 10:00

在语言学的广阔天地中，手语研究曾是一片未被充分开垦的荒地。

上海大学的倪兰教授，作为中国大陆培养的第一位「手语语言学」方向博士，在谈到自己选择手语方向时仍忍不住感慨，“往前推二十年，语言学界几乎无人涉足这一领域。”

然而，时光流转至今，这一领域的现状是否得到了改善？

二十年后的今天，尽管在这一领域人们的认识有了很大的进步，也有一些研究者开始从事手语相关研究，但比起语言学的其他方向，手语语言学仍然面临着诸多问题和挑战。

在2023年4月天津理工大学举办的手语信息化会议上，倪兰教授作为语言学界的代表之一，感受到了这一领域的发展与局限。

她指出，在一众与会者中，除了极少数学者外，大多数参与者都来自计算机科学和通信技术领域。这也意味着，尽管手语技术的研究取得了一定的进展，但对手语作为一门语言的深入理解仍然不足。

大多数的信息科学的研究人员利用计算机视觉技术进行了多年的手语识别研究，但遗憾的是，可能很多人并未真正意识到：手语是一种和有声语言同样的自然语言。

最近几年很多科技公司推出的“手语数字人”试图为听障人士提供实时信息服务，但当流量盛宴结束，这些技术是否能融入日常生活、研发公司能否保留技术团队、听障群体是否真正接受这种翻译方式、以及这些技术是否通过了国家权威机构的技术有效性鉴定，这些深层次问题却鲜有人问津。

当技术热潮逐渐冷却，人们再次审视手语识别的核心问题。

倪兰教授认为，过去人们普遍认为只要理解单个手势的含义就能解决手语识别问题，但当AI和数字人出现后，机械地将汉语词汇翻译成手语，听障群体却难以理解机器自动生成的手语。

倪兰教授比喻说：“就像外国人学习中文，如果他们按照英语的句法结构来组织汉语词汇，那么他们说的汉语可能会让人难以理解。同样，手语也需要遵循其自身的语法结构”。

在技术开发方面，倪兰教授认为，手语识别的核心问题在于手语的内部结构，包括语音构造、构词方式和句法结构。

她指出，手语的语法结构问题，尤其是如何将手语表达转换为相同概念的句子结构，是研究的核心。她的研究团队正在努力解决这些问题，以提高手语识别的准确性。

在与计算机科学家的合作方面，倪兰教授提出了两个关键问题：如何利用技术手段处理长篇语料，以及如何实现标准样本的标注。这样的合作将有助于提高手语研究的效率，为计算机视觉技术在手语识别领域的应用提供充足的数据支持。

近期在与雷峰网-AI科技评论的对话中，倪兰教授从语言学视角梳理了手语研究中的关键问题，也讲述了如何与计算机视觉专家开展手语识别系统的合作开发。

以下为对话（经编辑）：

手语语言学研究一度无人涉足

AI科技评论：倪教授，如今“手语语言研究者”已经成了您的一个重要身份，但我想知道，您为何选择做手语研究，最开始遇到过哪些难题？

倪兰：在2000年左右，国内对手语语言学这一边缘领域的研究认可度并不高。当时手语的研究主要是由特殊教育领域的专家进行，他们关注的是如何教授聋生通过手语学习汉语，语言学界几乎无人涉足这一领域。

我的导师龚群虎教授在新加坡做博士后期间，注意到国外一些大学语言学系常常会有几位专家专注于手语研究。由于他自己也会一些手语，他开始特别关注这一领域，并在此期间搜集了大量相关文献资料。

2002年，龚群虎教授被引进到复旦大学时，将这些资料和想法带到了国内。

2003年，我开始攻读博士学位，导师询问我是否愿意从事手语研究。当时我对此并不熟悉，但我愿意尝试，所以导师就给了我一本美国语言学家写的书，名为《Sign Language(手语)》。

这本书基于是1970年代加州大学圣迭戈分校和索尔克研究所一批学者针对手语的实验工作而进行的研究，他们原本是希望探讨聋人在没有语言的情况下是否仍具有思维能力。他们以聋人和听人为研究对象，发现聋人不仅具有思维，而且拥有自己的语言——手语，这一发现激发了一批研究者对手语的研究兴趣。

我在阅读这本书后也感到非常兴奋，尽管当时国内没有这方面的深入研究，中文研究资料也非常匮乏，但我发现手语研究与我之前从事的现代汉语语法研究有很多相似之处，手语研究中的许多问题也是汉语研究需要面临的问题，所以从那时开始我对手语研究产生了浓厚的兴趣。

AI科技评论：我留意到您是中国大陆培养的第一位「手语语言学」方向博士，博士期间在手语领域做了哪些工作？

倪兰：博士期间我向导师表达了意愿，希望能专注于手语的语法研究。因为特教专业已经在手语词汇研究方面做了很多工作，而在语法和手语的“语音”（尽管手语没有声音，但在语言学意义上可以被视为一种“语音”）方面，研究还相对较少。

从2003年开始，我跟随导师进行研究，直到2007年毕业时，完成了中国大陆第一篇关于手语动词的博士论文。

当时，香港中文大学也在进行手语研究，邓慧兰教授带领的团队极大推动了香港手语研究的发展。我2007年从复旦大学毕业时，国内的手语研究领域争议还颇多，有人认为手语不过是一种辅助工具，缺乏系统的语法结构，不能算作一种真正的语言。由于懂得手语的学者寥寥无几，这一领域的研究并未得到广泛认可。因此，我并没有以手语研究的身份应聘任何高校，而是凭借我之前的汉语教学经验，成为了上海大学国际交流学院的一名语言教师。

后来，我有机会被派往国外工作，发现很多国家，包括我所工作的土耳其等国家，都有专门的手语研究者。2010年，中国残联和国家语委在北京师范大学成立了国家盲文和手语研究中心。它标志着手语、盲文研究开始受到更加广泛的关注，这也是我国手语研究的一个重要转折点。2012年，我和导师共同申请了一个国家社科重大项目，专注于中国手语数据库的建设。作为句法子课题的负责人，负责长篇数据采集和相关数据分析工作，目前建立的手语数据库存放在复旦大学。

AI科技评论：后来是怎么把手语工作带到了上海大学？

倪兰：参与中国手语数据库这个国家社科重大项目的工作后，我向上海大学文学院提出了成立一个手语研究中心的想法。2017年，“中国手语及聋人研究中心”在上海大学成立。这是中国综合性大学中首个专注于手语研究的校级研究机构。中心致力于开展手语和聋人的科学研究以及国家通用手语的推广工作，我担任了研究中心主任。

中国手语（CSL）是一个广泛的概念，它可以包括国家通用手语和中国各地方手语。

2018年，经上海市语委推荐我们以特殊人群语言文字研究为特色申报了教育部、国家语委的“国家语言文字推广基地”，2019年底、2020年初，我们获批成为“上海市语言文字推广基地”和“国家语言文字推广基地”。这个过程的每一步都来之不易，记得我们当时在申报答辩时，有专家提问为何一定要以国家语言文字推广基地的形式来进行相关研究。我回答，特殊人群的语言文字使用虽然涉及的人群相对较少，但相关研究需要得到国家和社会各界的认可和支持，以及制度、经费保障，否则难以长期持续。

专访上海大学倪兰教授：语言学与手语识别技术的融合突破，解锁交流障碍｜GAIR live

2017年，“中国手语及聋人研究中心”在上海大学成立，倪兰教授（右一）

当语言学背景学者参与技术开发

AI科技评论：上海大学对手语研究是很支持的，这很难得。国内还有哪些手语语言学研究团队？

倪兰：上海大学对于一些特色研究方向还是非常支持的，我们的研究中心设在文学院中文系，但我们有很多交叉研究，分布在计算机工程与科学学院、通信学院、社会学院、新闻学院、电影学院、外语学院等。

目前，包括复旦大学、华东师范大学、厦门大学等在内的许多外语界的老师也开始进入手语研究这一领域。当时我在复旦的师弟师妹们毕业后也分别进入不同的学校，如北京师范大学、上海外国语大学、上海师范大学、燕山大学和鲁东大学等，他们在各自的岗位上继续着手语研究。

总的来说，在国外，手语语言学研究已经是一个相对成熟的研究领域。在国内，手语研究仍然被视为一个特殊的研究方向。但我相信，随着时间的推移，手语研究将得到更广泛的认可和发展。

AI科技评论：手语语言学研究是一个方向，但国内关于手语的研究文章主要集中在计算机领域。现在您会和计算机视觉专家合作开发手语识别系统吗？

倪兰：确实存在这样的现象。从2003年开始，我们着手进行手语语言学研究项目时，发现计算机领域开展手语识别研究有不少机构，如哈尔滨工业大学、中国科学技术大学和中国科学院等都有相关研究团队，他们的研究主要集中在手语识别上，特别是孤立手势的识别。

语言数据调查和分析，是语言学研究的基本方法，也是语言学理论研究的基础。手语语言学者的研究主要是调查和描写手语的实际使用情况，研究手语内部结构规律，语言的发展变化，以及与有声语言的联系和区别等。

AI科技评论：实地调查，意思是建设语料库吗？这对CV学者来说如获珍宝吧？

倪兰：语料库建设是语言学的一种重要研究方法。对于语言学研究者来说，语料库是进行语言研究的重要基础，是观察语言现象的重要来源。手语语言学研究的核心目标是通过语料来分析手语内部结构，建设手语语料库是我们进行研究的基础工作。

境外很多研究机构，包括香港、台湾地区都有公开发布的手语数据库，但中国大陆目前还没有公开发布的相关手语数据库。2017年，我们承担了国家语委和上海语委的手语信息化项目，2018年，完成了部分数据采集和数据库建设的初步工作，并在年底举办了研讨会。当时我们邀请了国内计算机领域做图像识别的专家，对我们的数据库提出很多建议。目前，我们的语料库已经收集了8万多条数据，其中包括国家通用手语词汇，以及许多手势的地方变体，即同一个手势的多种打法。未来我们希望将全国的地方手语数据都纳入这个语料库，成为中国手语研究的一个重要的数据来源。

在采集手语数据时，国际上的通行做法是，听人不能直接参与调查，因为他们的参与可能会影响聋人自然地使用手语。因此，我们需要培养一批懂语言调查的聋人研究者，让他们深度参与语料库建设项目。在过去几年中，我们在上海建立了一支团队，包括年轻的和年纪较大的聋人，他们帮助我们采集数据，并参与各类手语项目。

手语语料库的建设是一项社会性和系统性的工作，它需要各类人员的参与和合作。这个过程不仅是为了收集数据，也是为了培养聋人社群中的研究者。如果没有来自这个群体的研究者，很难获得有价值的数据，也很难得到聋人群体的广泛认同。

AI科技评论：手语跨学科合作是合作哪些方面，遇到过哪些挑战性问题？

倪兰：与计算机专业背景的专家合作，我们希望通过语言学视角观察到的规律和原则来辅助计算机视觉技术识别手语动作和意义。

目前的图像识别和语言识别技术可以在不清楚语言内部结构的情况下，通过大量数据集训练让机器自动学习并得出结果。但在小样本数据情况下，提供关键数据的标注可能会有助于减少误差，提高识别的准确率。

手语识别技术发展的挑战可能在于目前我们还无法提供大规模的标注数据。

国内一些科技公司研发手语数字人所依据的数据具有很大的同质性，缺乏突破。在这一领域要实现大的突破，需要有规范化、标准化，并且应用场景丰富、准确性高的标注数据，这是我们未来工作的一个重要方向。

手语数据库建设由于肖像权、知识产权保护等问题，对外公开发布也是一个巨大挑战。如何保证数据公开不会被他人滥用，如何设置权限来保护这些数据，同时确保它们能够广泛用于科学研究和教学。

AI科技评论：我知道手语作为一种视觉表现力极强的语言，其面部表情和头部动作对于整个意义的表达至关重要，但如果涉及到肖像问题，会有合适的数据公开方式吗，也就是说与“手语计算”领域的合作是不是更难？

倪兰：在参加国际会议时，我们了解到一些处理方法，比如对眼睛部分打马赛克，但这样做会丢失重要的语义信息，如眼睛开合、皱眉等，这些都是手语理解中不可或缺的表情要素，一旦这些部分被模糊处理，就很难准确传达手语的意义。

在数据采集中，除了基本的手势词汇，我们还采集了长篇语料，我们的学生正在对这些数据进行标注，目前我们使用的是单机版的标注方式。未来，我们希望能够将其发展为网络版，以便更多人可以共同参与标注。

AI科技评论：我们非常关注这些前沿技术是否您的手语跨学科研究有影响，包括去年推出的大型语言模型ChatGPT，以及今年的文生视频模型Sora。这些人工智能的最新进展，您和团队有接触吗？

倪兰：我们一直在密切关注信息技术领域的快速发展，也鼓励学生尝试使用这些技术，了解相关的性能。这些技术从有声语言角度看，在语言结构和精细度方面已经取得了令人难以置信的效果。但在手语领域，我还没有看到特别出色的应用。

在美国，除了纽约城市大学，还有宾夕法尼亚大学也在进行手语识别方面的相关研究。圣地亚哥的索尔克研究所、芝加哥大学、加劳德特大学等研究机构也是手语语言学研究的重要阵地，他们在语言本体研究方面做了大量工作。

AI科技评论：最后想请问您，最希望得到计算机科学家的哪些支持？

倪兰：计算机科学家需要手语语言学的标注语料，同时语言学也希望信息科学能够为语言学研究提供技术支持，如语料的切分和机器的自动标注。除此之外，两个领域的研究者需要共同探讨哪些标注有助于手语识别和合成技术的发展，这些方面有可能也是我们人类识别语义、理解语言、使用语言的重要标记。

在本次对话中，倪教授还分享了手语语言学研究，如何为计算机视觉技术在捕捉和分析手语动作时提供理论指导。欢迎同道添加本文作者吴彤微信（icedaguniang ）交流。

｜GAIR live 圆桌预告

3月18日晚8点～10点，雷峰网(公众号：雷峰网)将举办主题为「AI+手语识别，技术革新与应用前景」的线上圆桌论坛。

本次论坛嘉宾有，美国纽约城市大学田英利教授、上海交通大学自动化系苏剑波教授、上海大学计算机工程与科学学院方昱春教授、上海大学文学院倪兰教授，共同分享他们的见解和研究成果。

“全球人工智能与机器人大会”（GAIR）始于2016年雷峰网与中国计算机学会（CCF）合作创立的CCF-GAIR大会，旨在打造人工智能浪潮下，连接学术界、产业界、投资界的新平台，而雷峰网“连接三界”的全新定位也在此大会上得以确立。

经过几年发展，GAIR大会已成为行业标杆，是目前为止粤港澳大湾区人工智能领域规模最大、规格最高、跨界最广的学术、工业和投资领域盛会。

GAIR Live作为雷峰网旗下视频直播品牌，旨在输出新鲜、深度、原创的大咖访谈与对话内容，打造辐射产、学、研、投的特色线上平台。

专访上海大学倪兰教授：语言学与手语识别技术的融合突破，解锁交流障碍｜GAIR live

｜手语相关资料

1，《专访纽约城市大学田英利教授：用多通道、多模态的方法「看懂」手语》https://mp.weixin.qq.com/s/jgng2-6tiG9HC9C7FEbMLA

2，《Multi-Modal Multi-Channel American Sign Language Recognition https://gairdao.com/doi/10.1142/S2972335324500017

｜IJAIRR正在邀约论文和专题

《国际人工智能与机器人研究期刊》（International Journal of Artificial Intelligence and Robotics Research，简称IJAIRR），是由新加坡GAIR研究院与世界科技出版社联合出版的国际学术期刊。

作为全球首本专注于人工智能（AI）、机器人技术（Robotics）以及基础科学交叉研究（Research）的期刊，IJAIRR致力于成为AI与机器人领域研究的权威发布平台。

IJAIRR欢迎各类研究论文、评论文章、短篇论文、书评以及专题（Special Issue）形式的投稿。

我们特别关注那些在顶级AI会议上发表并现场展示，但缺乏长期沉淀平台的优秀论文。为了给这些论文及其作者提供一个更广泛的发表和推广渠道，IJAIRR现正积极邀约相关论文投稿。

（1）“如果您在本领域顶级会议上发表的文章（或即将发表）不超过一年，我们将协助您稍作修改后在IJAIRR期刊上发表。

（2）如果您领导的团队在顶级会议上有多篇论文发表，并希望在IJAIRR上围绕特定主题策划一个专题（Special Issue），我们诚挚邀请您深入讨论合作事宜。

（3）如果您是顶级会议的组织者，并有意与IJAIRR合作，针对特定会议策划一个专题（Special Issue），我们也期待与您具体商讨合作细节。

IJAIRR期待与您携手，共同推动人工智能与机器人研究的发展。

联系人：IJAIRR创刊主编朱晓蕊博士，xiaorui_zhu@gair.sg

关于期刊创刊主编等更多信息，可点击:https://mp.weixin.qq.com/s/gEctQolbEqqf2eVwBAkdoA

关于雷峰网、GAIR大会、GAIR研究院（期刊和在线社区）的详细介绍，请阅读朱晓蕊教授的专访:https://mp.weixin.qq.com/s/Qn7Gc3rVijQhhK0hTSrgxw

IJAIRR期刊的主页链接为：https://gairdao.com/journals/ijairr