从实验室到现实，AI+手语识别，路向何方？｜GAIR live

AI手语识别计算机视觉田英利教授纽约城市大学

作者：任平

2024/03/26 10:19

从实验室到现实，AI+手语识别，路向何方？｜GAIR live

在数据和算法塑造的现代世界中，人工智能正快速地推动社会变革。

在此背景下，一群学者将关注投向了社会边缘群体——听障人士。他们通过深入的研究和开放的对话，探索科技如何成为沟通的桥梁，为每个人带来温暖。

最近，雷峰网组织的“AI+手语识别：技术革新与应用前景”线上圆桌论坛，汇聚了田英利、倪兰、苏剑波、方昱春四位教授，他们凭借对听障社群和AI技术的深刻理解，进行了一场内容丰富的对话。

两个小时的时间里，他们谈到手语与计算机视觉技术、语言学技术的结合，还讨论了伦理、隐私保护和实际应用等关键议题，为理解听障人士如何与科技融合提供了新的视角。

这不免让人回忆起乔布斯所言：“技术本身并不足以改变世界，关键在于技术背后的人。”这四位教授正是通过技术实现社会变革的代表。

田英利教授，作为计算机视觉领域的权威专家，这十年来专注于将手语识别技术应用于改善听障人群的沟通。疫情期间，她团队的手语识别系统的远程测试引发了一个关键猜想：手语识别系统的有效性可能更依赖于上下文语义理解，而非细致的多层标注，这一发现为实际应用开辟了新的可能性。

倪兰教授，拥有丰富的语言学背景，二十年来专注于“手语语言学”的研究。她探讨了语言学对手语识别的深层意义，提出了在AI时代重新定义语言学家角色和贡献的必要性。

苏剑波教授，从产品开发视角出发，强调了手语识别技术面临的实际挑战，尤其是样本采集的场景特定性与技术和产品通用性之间的平衡问题。

方昱春教授，同样作为一位CV学者，指出手语识别的复杂性远超人脸识别，并基于七年的研究经验，对手语数据的收集和管理提出了见解，指出面部隐私保护技术“DeID”，可能为手语数据的安全共享提供新的解决方案。

这场论坛不仅促进了技术交流，更是跨学科合作的典范，正如在圆桌结束后观众所言：如果说交叉学科研究中最稀缺什么，那一定是敞开心扉的对话。

以下是线上圆桌的全文（经编辑）：

01 全球视野下的突破

田英利：欢迎大家齐聚线上，也感谢雷峰网(公众号：雷峰网)的组织。我相信大家和我一样，都对接下来手语识别讨论充满期待。在开始之前，请大家介绍下自己。

倪兰：我是倪兰，来自上海大学文学院，语言学及应用语言学专业。我进入手语研究领域至今已经整整二十年。在上海大学，我们成立了中国手语及聋人研究中心，这个中心致力于手语的学术研究和聋人群体的社会调查，以此增进社会对这个群体及其语言的理解。

苏剑波：大家好！我是苏剑波，来自上海交通大学和上海灵至科技有限公司。很高兴有这个机会与大家交流我在手语识别方面的研究。我的工作最初源于人机交互领域，最开始并非专门针对聋哑或残障人士。我的初衷是让机器人能够通过人类的下意识行为、表情和肢体语言来识别意图和情绪。在这个过程中，我逐渐意识到手语在表达情感中的重要性，并开始专注于聋/哑人群的手语识别。

我目前的研究仍未完全区分健听人和听障人士的手势识别，我将继续在这个混合领域进行探索。希望今晚能与大家分享我的研究成果。

方昱春：我是方昱春，来自上海大学计算机工程与科学学院。自2017年起，我开始涉足手语研究，并深感荣幸能得到倪老师的支持和指导开展交叉学科研究。手语作为一门自然语言，远不止是符号系统那么简单，这深深吸引了我。我们有幸获得国家文字语言委员会和上海市科学技术委员会科研经费的支持，在上海大学建立了专门的语言采集实验室和推广基地，并开展了相关教学课程建设。期待未来能与大家进行更深入的合作。

田英利：我是田英利，自1998年在美国卡内基梅隆大学开始接触人的表情识别研究。在那里，我与导师和团队共同创建了第一个微表情识别数据库，多年来被同领域广泛使用。在IBM工作三年后，我于2008年加入纽约城市大学，开始思考如何将计算机视觉研究应用于帮助有特殊需求的人群，特别是盲人和聋人。

手语作为聋人与外界交流的主要方式，不仅包括手势，还涉及面部表情和身体动作。掌握手语对聋人和健听人来说都不容易，因此，如果能开发出自动识别手语的技术，将极大地帮助聋人在就业和社交方面。

尽管各国都在努力，但手语识别仍面临挑战。我希望今天的论坛能让我们更深入地理解这一领域，为未来的研究和产业应用提供实际指导。

田英利：第一个问题，关于手语识别领域的进展，尽管众多团队和个人已在这个方向上努力多年，但仍有许多值得探讨的空间。国内外有哪些学术和工业团队在这一领域取得了显著成就？他们的研究成果是如何推动手语识别技术发展的？倪兰教授，请您先开始。

倪兰：作为从事语言学研究的学者，我对手语识别领域的认识可能不够深入，但可以和大家分享一些我所了解的情况。

2003年当我们开始手语研究项目时，哈尔滨工业大学和中国科学院的自动化所、计算所等已在进行相关研究，早期侧重于穿戴式设备而非计算机视觉（CV）。随着CV技术进步，这个领域发生了显著变化。

目前，国内活跃的从事手语识别技术团队不仅包括哈工大和中科院的团队，还有中科大的周文罡教授团队已在该领域深耕十多年，北京联合大学的姚登峰教授，作为听障学者，他的研究具有独特视角，他也正在建设中国手语和汉语的平行语料库，让聋人学生进入团队采集手语数据，取得了不少成果。天津理工大学的聋人工学院多年前开始建设中国手语长篇语料数据集。我所在的上海大学自2017年成立手语研究中心起，就开始建立实验室，采集手语视频视频，借鉴了国外数据采集的经验，在较为纯净的背景下进行拍摄，便于计算机后期建模，尽管在实验室采集，我们也尽量使用各种方式以诱导更自然的手语表达，以便获取自然语料。

苏剑波：我对手语识别领域的研究，起于对机器人领域的人机交互理论和技术的关注，并非一开始就专注于聋人手语。我更关心的是如何让机器人能够通过对人的手势，乃至肢体行为的自动识别，来理解人类的情绪和意图。

因此，我对相关团队的关注点可能与倪老师提到的有所不同。

在机器人学领域，国内外许多研究机构如中科院自动化所、哈工大，以及我所在的上海交通大学和曾做过访问研究的香港中文大学等，都在进行相关研究，尽管尚未形成完整体系。这些研究通常基于特定项目或产业化需求，利用计算机视觉技术和工具积累，在企业提出的应用需求上，开发各种能帮助残障人士或聋哑人交流的技术或工具。

应用场景如政府机关职员或医院中医生与聋哑病人的交流，所需的语料库相对有限，侧重于典型词汇的表达意图或含义，而非全面的语言学研究。

但相似的是，我们的研究同样从视频入手，专注于语义和含义的识别，更侧重于通用语料库的应用。

方昱春：作为计算机视觉专业的学者，我踏入手语识别这一研究领域，最初是受到手语语言学的启发，激发了我的研究热情。

国内，中国科学技术大学手语识别团队在手语识别领域取得了显著成就。国际上，德国亚琛工业大学的研究团队同样在这一领域享有盛誉。这两个团队凭借超过十年的研究积累，发布了多代数据集，推动了孤立词识别、连续手语识别和手语翻译等关键问题的研究，并引领了整个领域的发展。

此外，中科院计算所、西安电子科技大学、清华大学、香港科技大学、西湖大学，中科院自动化所、合肥工业大学、东北大学近年来也在手语识别领域持续发表了高水平成果。天津理工大学也建立了数据集。

特别值得一提的是，中科院计算所陈益强研究员团队，在基于数据手套的手语理解领域取得了显著成就，他的团队在聋校进行了教学应用和人机交互场景的探索。在2017年我们正准备采用计算机视觉技术进行手语识别时，陈益强教授鼓励我们尝试，尽管当时成功的可能性并不确定。毕竟，当时“人脸识别”取得了限定范围应用，“手语识别”的难度无疑更高。

2023年，参与手语识别研究的学校和企业数量进一步增加。

国内外企业如小米、华为、腾讯，以及微软、谷歌等也都积极参与这一领域的研究。很多企业关注开发具备手语能力的数字人，以提升人机交互体验。

手语识别领域近年来的快速发展，新的数据集和相关竞赛的频繁发布预示着这一领域的未来潜力。

田英利：我接着谈谈我在美国做手语识别的经验，以及对国际手语识别领域的观察。

相比较而言，欧洲比美国更早关注残障人士研究，但美国很快跟上了步伐，我很高兴看到中国许多单位也开始这一领域的研究。这背后最大的推动力是人工智能和机器学习的进步，以及计算机算力的提升，使得原本不可能的研究变得可行。

正如刚才倪教授所说，早期手语识别研究，包括与语言相关的研究，一开始是依赖于穿戴手套等设备来捕捉手指运动，实现基本词汇的识别。但现在，随着技术的发展，尤其是微软为游戏设计的RGBD摄像头的应用，许多学校开始使用RGBD技术进行捕捉。这不仅提供了视频信息，还增加了深度信息，极大地提高了计算机视觉算法的精度。

目前，手语识别的主要瓶颈是缺乏通用的大型数据库。尽管自然语言学习领域数据库技术已有显著进展，但手语识别仍面临挑战。美国、德国，希腊、土耳其等国也在进行数据采集和识别工作。

我们的团队自2004年起研究手语识别，结合计算机视觉技术和语言学研究，希望将人的表情、手势和身体动作结合起来进行识别，满足聋人的真实需求。

这个过程中，我们与很多高校建立起合作，比如罗切斯特理工大学（RIT），他们拥有规模庞大的聋人学院，超过1000名聋人学生；以及纽约城市大学亨特学院的Elaine Gale教授，她是一位失聪者，精通唇语，并在手语教育方面有着丰富的经验。

所以我们团队的工作流程相当于一条龙服务：RIT负责数据采集和标注，我们负责开发系统算法，然后Gale教授的团队在他的课堂上与学生一起验证我们的系统，并提供反馈，以便我们进一步改进。

我们意识到手语是一种完整的语言，不仅限于有限的词汇。我们的目标是研究手语的语法结构，而非单一手势。目前我们打造出一条针对美国手语的语法实时识别系统，能自动反馈学生手语的语法正确性，提供快速反馈。

我期望国内能建立跨学科的、成体系的研究环境，不仅仅是语言学者或计算机学院的独立研究，而是能够整合不同学科、聚集各类人才。我相信，随着研究的深入，这一领域将会取得更大的进步。

02 从理论到实践

田英利：第二个问题：如何从零开始构建并部署一套高效的手语识别系统，在这一过程中我们面临了哪些技术难题？大家是如何克服这些难题的？还有哪些问题尚未解决？倪老师，请先开始。

倪兰：手语识别系统构建不是我的专业，我可以从语言学的角度提供一些参考。在我看来，手语识别的过程类似于人类学习一门新语言的过程，我们需要理解词汇的意义、语法结构，最终达到理解整个语言系统的目的。从某种意义上说，手语识别就是将人类的语言学习经验传授给机器的过程。

在构建手语识别系统时，我们需要解决的关键问题是如何匹配形式和意义。刚才田老师提到的方法，似乎是将整个句子视为一个结构来处理，而不是单独识别每个词。这种方法似乎更侧重于语言单位的整体性，而不是单个词的识别。

在国内，许多团队可能是先从识别孤立的词汇开始，然后逐步扩展到整个句子或段落的识别。但田老师提到的方法是不要求具体词的精确识别，而是关注整个句子的意义匹配。这实际上涉及到语言学中的“语块理论”，即“以意义为单位进行语言分析”。

我很想知道，田老师的方法是否需要人工标注句子的意义，以及在形式和意义的匹配过程中，如何界定语言单位，以及如何进行标注。这些可能是我们在构建手语识别系统时需要深入讨论的问题。

田英利：倪老师，您提到的问题非常关键。确实，手语的连续性和句子间的切分对于理解整个表达非常重要。机器学习在切分方面可能与传统语言学的方法有所不同。在我们的研究中，虽然我们没有对每个词进行识别，但我们确实对一些与语法相关的关键词进行了识别，比如表示时间的“昨天”、“前天”以及“明天”、“后天”，这些都是通过手势、位置和表情来表达的语法元素。

我认为，随着对手语每个词识别精度的提高，我们将能够更好地理解整个句子。就像我们在说话时，即使每个词都听得懂，但如果没有上下文的理解，我们也无法完全把握说话者的意图。同样，在手语中，上下文的理解也非常关键。同一个手势，在不同的上下文中可能表达完全不同的意义。

总的来说，我认为，对手语中单个词的理解是必要的一步，但同时，我们也需要关注上下文和整体句子的理解。这样才能更全面地把握手语的含义。再次感谢倪老师您的宝贵意见，它们对我们的研究工作具有重要的启发意义。

倪兰：田老师，您刚才提到了语言理解，包括语法中的时间词和疑问词等。您在处理这些问题时，会考虑句子的语序吗？比如，时间词在句子中的位置，我们是将其放在句首、句中还是句尾？例如在汉语中，我们可能会说“我昨天去了哪里”，这里的“昨天”是放在中间的。您在研究中会考虑这种语法结构吗？

田英利：是的，我们会考虑这些因素。我们不仅关注词的位置，还关注它们的时间因素。

例如，我们不能在说出“倪老师，你吃饭了吗？”这个问题之后，过了很久才做出询问的表情（比如眉毛上挑），这样的话，表情就与问题脱节了。因此，我们不仅要考虑表情发生的时间，还要考虑它与关键词、问题句子的相对时间关系。这样的考虑才能赋予其语法意义。在美国手语和中国手语中，这些都是关键问题。

苏剑波：这个问题确实是手语识别领域中非常核心的技术难题。我很难说我们已经克服了哪些挑战，或者更准确地说，我认为在手语识别方面，我们仍然面临着大多数问题尚未解决的现实。

正如方老师刚才所指出的，手语识别是一个比人脸识别要复杂得多的领域。确实如此，十多年前，我有一个硕士研究生专注于人脸识别研究，他取得了非常好的成果，并发表了优秀的论文。毕业后，他去了香港中文大学攻读博士学位，那里的导师希望他能将他在人脸识别研究中的经验和成果应用到手语识别上。他深思熟虑了好几个月，最终还是放弃了，因为他了解到手语识别的难度，所以没有继续这个方向的研究。

手语识别领域的要求和对不同场景的适应能力，以及对语言语料库的积累，都使得它在模式识别领域中独树一帜。尽管我也是从计算机视觉和模式识别技术起步的，自然而然地会寻找能够代表某一类模式的特征集合，这是我们这些受过模式识别专业训练的人的本能反应。

但这种传统模式识别领域内有效的方法，在手语识别领域可能就不那么适用了。手语的多样性和变化性——场景、人物、职业的不同，甚至不同地区和方言的差异——使得手语的特征选择和定位变得异常困难，远远超出了人脸识别等其他模式识别任务的复杂性。手语识别不仅包括静态手势的识别，还包括动态手势的识别，这就像文字断句一样，不同的断句方式可能导致完全不同的语言含义。手势的这种“断句”差异可能会导致真实含义的巨大变化，甚至完全相反的意思。更不用说不同国家和方言的差别了。

在实际研究过程中，我们可能都会遇到类似的经历。如果我们基于公开的标准数据库集进行手语研究，相对来说进展会比较容易。但如果我们基于真实人物采集的数据库进行研究，难度就会大大增加，因为手语和手势的特征提取也会变得非常个性化！因此，如何将这些研究成果转化为广泛接受的手势或手语表达形式，是手语研究中极具挑战性的问题。

在模式识别领域，无论是语音识别、人脸识别还是指纹识别，都有专门针对这些领域的工具和技术。然而，针对手语识别，我们似乎更多地是将其他领域的成功方法应用到这里，而没有针对手语识别开发出专门的技术手段和算法。

这反映了我们在这个领域开发特定技术难度的问题，或者说是通用性的难以实现。我们现在所做的工作，大多是基于模式识别领域内公认的技术，如卷积神经网络和各种滤波手段。然而，很难期望一个并非为特定领域中特定环境下解决特定问题而设计的工具，能够将该领域的问题解决到极致。

我们提出了所谓的“特征完备性”概念，针对常用的几百个手势，无论背景、职业、应用场景和文化背景如何不同，人们在表达同一语义时手势之间的相似性，及不同语义时的手势之间的差别，都可以通过一个足够完备的特征集合给予描述；同时，为了减少识别的计算量又期望特征的整体规模要足够小，即特征之间的正交性。这是我们把在其他模式识别领域的一些成功思想，拓展到手语研究。

通过上海灵至科技有限公司和上海追求人工智能科技有限公司两家公司的市场化合作，我们试图将模式识别的通用技术应用于帮助残障人士领域，他们拥有市场资源，能够获得特殊行业如多地聋哑学校的支持，从而采集特定的样本。

但是，我们有时也会质疑，在特定场景下采集的样本对于样本的拓展性和通用性究竟有多大的价值？这很难说清楚。这些都是我们在手语研究方面的一些困惑和难点。我提出的问题多于解决方案，接下来请问方老师，您那边有什么想法吗？

方昱春：我先回答问题的第一部分，关于如何构建和部署手语识别系统。

我的研究小组还没有开发出真正能够应用于实际场景的手语识别系统。但是，在观看了田老师的专访后，我深刻地理解了为什么田老师的工作，倪老师会认为特别有价值。因为田老师她们选择的问题——将计算机视觉方法应用于帮助学习手语的人，以便更准确地表达语法——实际上是手语语言学与计算机视觉模式识别交叉学科中的一个非常精彩的问题。

选择这样的问题进行研究，应该是非常有智慧，是交叉学科研究和应用非常好的例子。它不仅具有很高的实用价值，而且从语言学的角度来看，也具有很高的学术价值。这对我们来说是一个非常好的启示。

手语方面，最大的困难在于数据标注。与自然语言相比，我们目前拥有的手语数据集标注量非常少。自然语言可以进行字、词、语法、语义、语用的复杂标注，有大量的语言学家可以帮助完成这些工作。然而，要获得如此详尽的手语标注数据，难度就非常大了。这与手语本身的复杂性有关，它涉及到上半身多个部位的协调运动，并且具有很强的语言模式，这本身就是一个挑战。

要像自然语言理解那样去做手语理解，难度是非常高的。正如苏老师刚才总结的一些经典问题，比如复杂性光照、背景复杂性、姿态复杂性等，这些都是我们在计算机视觉问题中需要面对的挑战。这些问题可能只有一部分可以通过计算方法解决，但我认为选择一个好的应用场景也很重要。例如，田老师语法纠正的应用就是一个实例。如果我们的应用场景是限定的，那么我们现在已经实现的一些视觉方法就可能落地应用。

至于其他的难点，可能要等到前面提到的数据采集和标注问题解决后，以及一个好的应用场景的选择，我们才能慢慢理解手语，进而促进我们理解人类的语言智能和认知智能。在这个基础上，可能会逐渐发展出更加普遍化的手语识别技术。

倪兰：在讨论手语识别的过程中，我们不得不提到语言学的分类。

我们知道，目前的许多语言学研究，包括像ChatGPT这样的模型，主要处理的是文本，也就是我们所说的书面语。对于书面语的标注，我们有很多数据库，无论是现代汉语还是古代汉语，都有相应的标注资源。然而，当我们转向口语，也就是有声语言时，虽然现在汉语口语的数据库并不多。但至少在语音识别领域，我们已经有一定的标注基础，语音标注可能主要关注元音和辅音等方面。

但在手语标注方面，我很想了解你们在计算机识别或合成领域主要需要什么类型的标注。我们在使用一些软件进行语言学标注时，可以实现多层标注，最多可以达到50层甚至60层。但这样的标注对于计算机的手语识别有用吗？

我曾看过一些用于打榜的标注，比如西班牙手语的标注，主要是对个别词进行切分和语义标注，而不是完整的词汇切分。对于与语言学家的合作来说，你们最需要的标注是哪一种？你们需要标注到多少层，才能解决识别一个句子或一段话的问题？我对这个问题非常好奇。

田英利：对于视觉领域的手语识别来说，我们最关心的是语义理解。也就是说，当我们看到一整个手语句子时，我们想要知道它在表达什么意思。至于词的层面，了解孤立词的语义对我们来说已经足够了，并不需要像语言学研究那样进行50层细节的标注。

我们的主要应用目标是实现正常的交流，这是首要的一步。但是仅从视觉角度来解决这个问题基本上是不现实的，我们必须与语言学家、手语使用者，包括聋人社区合作，共同解决问题。

接下来，我们要考虑的是如何将这个复杂的问题简化。就像自然语言处理一样，即使是像ChatGPT这样的大规模模型，最初的研究也是集中在“新闻报道”这样比较官方、正式的内容上。只有在这些基础工作做好之后，我们才能慢慢扩展到不同的口语或其他领域。如果第一步做不好，后续的工作基本上就无法进行。

倪兰：那么回到这个问题上来，就是说在构建系统的过程中，我们需要对标注的规范达成一致的标准，对吗？这是我们需要明确的。

田英利：确实如此，拿我们团队来说，从一开始就明确了我们的研究方向。无论是系统开发还是视频手语捕捉，我们都事先讨论并决定了使用哪些传感器，以及捕捉的详细要求，比如是捕捉整个句子还是多个句子。我们最终选择了多个句子的方法，这样一来，我们就涉及到了不同句子之间以及不同词之间的分割问题。

另一个挑战是，正如我们在口语中不是每个词都有意义一样，手语中的手势也不全是有意义的。有些手势具有意义，而有些则没有。在实验室环境中，人们可能会刻意减少这些无意义的手势，但在实际应用中，人们会自然地使用各种无意义的连接手势。因此，如何准确地进行分割变得尤为重要。

我尤其想说一个插曲。当我们基本上开发出这个系统，并准备在课堂上进行测试时，新冠疫情爆发了，学生们无法到校上课。面对这种情况，我们不得不让学生在家中使用手机完成作业，并将视频发给我们进行系统测试。由于原本使用的是RGBD传感器，现在D（深度信息）的部分没有了，我们发现学生的视频中手的位置、远近不一，有时手势甚至超出了画面。

这对系统的考验非常大。在这种情况下，即使我们不能识别每一个词，我们也需要能够理解整句话的意义。这就像我们在网络通话中，即使偶尔丢失了几个词，我们仍然能够理解整个对话或段落的意思。因此，我认为在实际应用中，我们不一定需要非常细致的多层标注，但我们需要能够识别整个句子或段落的含义。如果我们能够做到这一点，那么这个系统就可以投入使用了。

苏剑波：我来补充一点。在实际应用中，我们面临一个挑战，那就是基于标准手语库训练出的识别系统如何应对真实用户，比如聋人在实际使用中的手势并不总是那么标准？

从模式识别的角度来看，这就像是你收集了大量的语料库，但在实际应用中，如何将系统扩展到具体用户的样本上，你的系统可扩展性到底能达到何种程度？实际上，这非常制约整个系统的实用性。

田英利：这确实是一个问题。就像ChatGPT一样，尽管它现在非常强大，但它也不能提供任何问题的答案。特别是对于帮助残障人士的系统，一定要有个性化定制的那一步。也就是说，基本系统建成后，针对每个人的具体应用，必须有一个调整过程。这是必不可少的。否则，对于个人用户来说，应用过程中会存在断层。

苏剑波：确实，我们需要一个标准系统作为基础，然后针对特定用户进行自我学习或调整的过程，这样才能逐渐提高系统对该特定用户的准确度。

田英利：是的，无论如何，还有另一个问题是关于用户界面的。无论你的技术有多好，如果你的界面不友好，用户就不会去使用它。

苏剑波：对，所以这个磨合过程往往会让用户失去耐心。

田英利：这就是为什么我们在最开始的时候就要把聋人朋友纳入到整个系统的开发中来。这些朋友对新技术充满热情，他们也愿意帮助和贡献。然后再进行推广。如果一个不成熟的产品在推广时让用户决定不再使用，那么以后想要让他们重新使用就会变得非常困难。

倪兰：我理解苏老师的困惑所在。可能因为美国手语的发展时间比中国手语要长，但在中国手语中，我们确实面临着苏老师提到的各种“地方变体”的问题。

对语言学家来说，语言的多样性是语言成熟度的表现，我们非常乐于接受。但手语有自身的复杂性，有方言的问题，还有群体内部的异质性（因为不同的教育背景、家庭情况、听损情况等，他们的手语使用情况千差万别）。

不同于普通话，我们可能只关注发音是否标准。聋人群体中，手语的好坏差异巨大。即使在公认的手语较好的聋人中，也存在差异。很多聋人并没有接受过系统的手语教育，他们大多靠自学。

手语的标准并没有像有声语言那样有一个明确的评判标准。通用手语目前只是一些词汇，而这些词汇也是从各地手语中采集来的，未来还需要进一步完善。

实际上，我们比较过通用手语常用词表和之前手语词典的词汇，发现词汇差异并没有我们想象的那么大。比如通用手语中的“安静”是一个复合词，即两个手势，但上海聋人可能只用一个手势，这种情况实际上并不影响核心意义的传达。

我特别关注田老师所做的工作，她不仅仅关注孤立词的识别，而是关注整个句子意思的理解，这对我们有很大的启发性。因为手语的方向和位置变化很大（例如我看到小孩学手语时在头的位置打出“牛奶”的手语，其他人也能看懂），如果我们能找到一些工具专门提取手语中有价值的特征，可能会对手语识别技术非常有帮助。

田英利：我认为您补充得非常好。实际上，在应用过程中，即使我们无法准确识别单个词，我们仍然可以通过视觉方法来理解整个句子的意思。

确实，要在现有技术水平下完全准确地通过视觉方法识别出所有意思有些困难。但苏老师团队的公司在针对特定场景研发技术，这非常能帮助到聋人。

例如，我们可以开发一些特定的产品，比如一个小软件，专门用于医疗场景中的对话，包含与病痛或医生沟通的词汇。这样，当他们去看医生时，只需要使用有限的词汇，比如三百到五百个，甚至几个手势，比如“肚子疼”、“头疼”，就能表达他们的不适。这样简化复杂问题，即使不能完全解决问题，也能在实际生活中为残障人士提供便利。

苏剑波：是的，这是一个很好的方法。我们在实际操作中，可以先让系统猜测病人可能的意思，然后再确认，这样的交互可能更实用，而不是追求一次性识别出完整的意思。

田英利：在开发系统时，一定要将聋人纳入系统的一部分。因为他们是系统的直接用户，所以让他们参与验证可以大大提高系统的准确率。当系统明确知道他们的意思后，可以将其翻译给医生。即使医生没有学过手语，通过语音或文字的翻译，就能理解他们的意思。

苏剑波：是的，对于福利院、养老院或专门用于照顾残障人士的机器人，它们可以通过人脸识别来识别出某个人习惯使用的手势。经过一段时间的自我学习后，它们就能快速准确地识别出特定聋人的手语。但在许多应用场景中，机器人没有这样的机会进行学习，所以这一步就无法实现。如果能让机器人长期陪伴一个聋人，那么这方面的压力就会减少很多。这就是我们的方向。

03 AI的启示

田英利：第三个问题，ChatGPT、Sora等大型语言模型在自然语言处理（NLP）领域取得了显著成就。这些模型背后的设计理念和技术路径，对手语识别研究有何启示？方老师，请您先分享。

方昱春：我认为ChatGPT作为大模型的典型例子，其成功的实用化范例很大程度上依赖于海量数据的支持。那么，这对手语识别有何关联呢？

我们认为，大型模型实际上是在大量文本语料上学习语义之间的关联性。而手语识别处理的是视觉方式传达的语义。人类在表达社会生活时，在语义空间中仍有许多共通之处。因此，我们认为大型模型的成功经验可以借鉴，特别是在构建语义空间方面，可能会加速我们对手语理解的研究。

这目前还只是一个猜想，我们尚未真正付诸实践。

此外，像Sora这样的文生视频大模型在多模态信息处理方面展现出了强大的能力。手语本身也是一种多模态形式，其形式是视觉信号，而内容传达的是语言信息。因此，我们也认为Sora这种多模态的工作方式可以给我们提供很好的启示。

主要在这两个方面——语义和多模态——我们可以借鉴和使用大模型，对手语识别技术提供支持。

倪兰：ChatGPT在2023年成为了最热门的话题，从年初到年末都备受关注。在我们语言学界，ChatGPT的出现引起了巨大的轰动。以前我们认为理解语言需要依赖语言学家来提供有价值的信息，然而ChatGPT和Sora等模型似乎表明，只要有数据就足够了。

许多学者也在探讨：人工智能时代，语言学家能做些什么？

尽管在有声语言识别，尤其是文本识别方面，人们可能认为语言学家的作用不再重要，但我认为在初期，语言学家提供的一些关于语言的重要信息是有价值的，包括语法结构等。

结构主义对我们人文领域产生了深远影响，我们知道语音、句子和词汇都是可以切分的，这种结构化的认识对于今天的大语言模型可能已经被遗忘，但它们最初的工作是至关重要的。

关于通用性，我们也在思考是否能够在手语领域找到一些最核心的信息，比如它的结构。尽管目前缺乏大规模的数据集，但也许我们可以找到一些关键的手语信息，这可能对手语识别有一定的推动作用。在与方老师和其他老师的沟通中，我们发现，许多老师认为手语是一个无法结构化的混沌整体，但一旦进行了结构化分析，就可以反复应用这些规律，这就是结构的力量。

因此，我们可以从ChatGPT中得到启示，思考在手语识别中哪些核心架构是关键的。

我记得在早期的GPT-3.0版本中，有些句子的搭配感觉有问题，但经过不断的训练后，它就能够扩展。我们是否也能在手语识别中找到一些关键的结构？比如手语动词的方向性，如果我们知道这一点，那么我们就不会将“我爱你”和“你爱我”识别成两个独立的手势，而是能够理解方向性动词的开始和结束位置是可以标记成句子的主、宾语。还有手指的朝向，它也可以表示宾语，这些都是结构化的特征。我们在分析手形时发现，中国手语中表示”钱“的时候，很多人认为必须拇、食指要捏成圆形。但实际上，在实际使用中并不会完全捏圆，这时不捏圆和捏圆的手形在意义上没有差别。当我们在语料中发现这两种手形实际上不区别意义时，这是否可以提高识别的准确性？

所以，我认为一方面ChatGPT告诉我们需要大量数据的积累，另一方面也提示我们有些核心信息需要早期放入到标注中，或者在构建手语识别系统时，可以提供给计算机一些知识库信息。

正如大家所讨论的，实际应用中，每次向ChatGPT提问得到的回答都会有所不同，我们可以在缺乏数据的情况下通过关键信息让系统不断自我学习，自我应用。

当我们缺乏足够的语言学者和标注人员时，未来实现自动标注可能是解决大数据问题的途径，因为系统可以自适应地学习。

苏剑波：这个问题我已经思考了很久。包括ChatGPT和Sora这样的工具，从技术发展的角度来看，它们都是非常清晰的人工智能工具。

ChatGPT主要是基于文本的人工智能工具，而Sora则是基于图像和视频的人工智能工具。因此，从手语识别的角度来看，我个人感觉Sora对手语识别的帮助可能要超过ChatGPT。

我们一直在思考的问题是，传统上我们总是需要从图像或视频中提取各种特征，无论是几何特征还是统计特征，并评价这些特征能否表达图像所代表的语义含义。从这个角度来看，无论是目标识别、运动分析、颜色识别，还是其他类似的任务，最终都要拓展到语义层面。

但我一直思考的是，比如我们观看一段视频或电影时，我们关注的是视频中的人物、情节和行为，我们可以从头到尾理解视频的内容和意义，而不会过分关注计算机提取的图像或视频特征。那么我们在做手语识别时，真的需要通过提取视频中的特征来识别手语的语义吗？

当然，计算机视觉的传统理论都是这样，选用什么样的特征表达关注的语义决定了基于计算的人工智能系统的性能，因此而考虑特征选择和提取的鲁棒性、速度和准确性。

Sora给我的冲击是，它是通过视频的方式来理解内容，但它的机理是什么？我不清楚。

它是通过传统意义上的计算机视觉特征提取来完成视频理解，还是通过其他手段？

这激发了我们对手语知识表达最有效的手段是什么的思考，包括语义的拓展和新的情绪、语义生成手段是什么？

如何让机器人能够生成手语来表达自己的意思，或者理解残障人士的意思，并通过手语解释给他们听？

在这个过程中，可能真的需要理解人类的思考或意图，这种计算模型是什么？

是否一定要基于我们在计算机视觉中学到的统计或几何特征？

我不清楚，但我体会到了ChatGPT和Sora给我的这种反向刺激。

观察人与人之间的交流时，包括健康听人和聋哑人的交流，人们是如何通过各种手势来理解他人的情绪或残障人士的手势含义的。

反过来说，计算机的计算能力远远超过人类，它是否一定要模仿人类不一定是计算方式的理解他人或残障人士手势的过程？

在这个过程中，它应该使用什么样的特征和模型来表达？这些模型或特征未必是人类需要或使用的。

我们以前总是说人工智能首先要学习人类是如何获得智能的，或者智能是如何进化的。我现在怀疑，计算机在发展人工智能或计算智能时，是否一定要走人类智能生成、发展和进化的同一条路？

田英利：回答您这个问题确实颇具挑战性，因为关于人脑如何产生智能的问题，目前科学界还没有确切的结论。

众所周知，任何关于人类智能进展的研究，都会对计算机人工智能的发展产生重大影响。然而，即便是小孩子的思维也不是二进制的，而计算机只能通过0和1的二进制来进行运算。计算机必须依靠其强大的计算能力来模拟，甚至达到小学生水平的智能。

最近，得益于强大的计算力和海量数据，ChatGPT似乎实现了一个飞跃。但我们也必须承认，尽管ChatGPT取得了巨大进步，它提供的想法或答案并不总是准确的。有时我们开玩笑说，ChatGPT经常一本正经地胡说八道，看似头头是道，实则可能是错误的。

为什么会出错？因为它缺乏判断能力，只能依据以往的大数据来得出结论。

Sora也是如此，它可以基于几个关键词生成逼真的视频，但这些视频真的符合我们最初的预期吗？并不一定。因此，我认为使用大数据进行手语识别仍然有一段路要走。

在我们的研究团队中，我们在等待收集数据库和标注数据的同时，采取了一种方法：我们直接从YouTube上获取那些已经有手语翻译的演讲视频，将演讲内容作为标注，使用视频中的小框内的手语进行识别，得到了不错的结果。但这些都是比较官方的内容，涵盖的范围相对有限。另外，视频中手语的质量也非常有限。

不过，我认为将来有了强大的计算力，可以将这类数据作为一种可行的备选大数据资源，利用现在的自主学习或无需标注的学习技术，自动剔除不准确的部分，提取最关键的语义信息。

这样，我们就能理解手语者在表达什么，这已经足够了。我们不需要精确地识别每一个词。这是我们自己的一种尝试和探索。

苏剑波：目前我们通过这种方法实现目标是完全可行的。但从技术的完备性角度来看，我个人并不特别喜欢所谓的标注过程，因为任何标注都可能带有标注者个人的主观意图。

正如在人工智能领域，比如早期让计算机学习下围棋，最初是通过学习人类的棋谱来进行的。但后来发现计算机无法判断人类高手棋谱中的错招和漏招，因此后来改变了策略，让计算机自我对弈。

现在，计算机只知道围棋规则是由人类设定的，但它通过自我进化来提高下棋技术，而不是通过学习人类的棋谱来达成目标。计算机围棋已经通过这种方式达到了远超人类的水平，但它并非是通过学习人类智能的方式实现的。

这个案例对我来说是一个极具启发性的思路，它表明机器智能的进化和提升未必需要通过学习人类智能来实现。这是我的观点。

田英利：然而，在最初阶段，我们仍然需要人类的标注，正如您提到的围棋例子，它有一套完整的规则。

对于手语和语言，尤其是受到地域限制的情况下，规则越明确，计算机学习的效果就越好。

但当规则不明确时，我们该怎么办？最初的时候，一定要有人来教它，告诉我们如何进行。

方昱春：算法应该还是依赖了大量的棋谱数据，展现了记忆的巨大优势。

倪兰：苏老师，这个问题在语言学上有一个解释。

根据乔姆斯基（当代著名的语言学家和思想家）的理论，所有人类都有语言的潜质和本能，但如果把一个孩子扔到森林里，不让他接触人类，他其实很难学习到语言，仍然需要激发，需要父母不断地为他提供语言数据的刺激和纠错机制。

我们教孩子语言时，并不是只教他“a是b”这样的句型，他就能照做。他会将规则用到极致，创造出我们从未教过的新句子。这其实和机器学习是一样的，我们告诉它基本规则，然后它产生新的东西。当然，人类的语言机制可能更复杂。

所以，我们目前对手语的构造了解还不够。很多时候，即使我自己的手势并不标准，但有时候一个表情就能让聋人立刻理解我想说什么。

我认为，我们的视觉捕捉到的信息比我们通过有声语言表达的信息要多得多。如果我们对手势和身势语有更深入的了解，一定能帮助我们更好地理解他人的意图和言语含义。手语虽然源自身势语，但它已经发展出了一个相对完整的体系。

我们首先对身势语了解不足，然后对发展出的手语的语法规则也没有完全掌握，这就带来了识别的复杂性。聋人在表达时，同时也会使用身势语。我们可以做一个实验，观察视频中的人边说话边打手势，当把声音关掉时，你完全不知道手势代表的含义。聋人能将他们的身势语和手语融合在起来进行表达。因此在手语识别时，我们如果不能区分身势语和手语，就会觉得复杂，没有规则。

手语是一种语言符号系统，它的表达有一定的限制性和语音规则。但因为它太复杂，融合了很多多模态要素，包括表情体态等，而我们对表情的认识和了解还远远不够，这就是为什么手语识别起来异常很困难。

田英利：我觉得苏老师提出的问题非常有趣，技术上如何解决？

倪老师谈到的也确实如此，有时候我们的语言只占交流的30%，大部分时候，尤其是在家庭中，有时甚至不需要说话，一个眼神就足以传达意图。人的交流有多个渠道，我认为不需要准确地识别出每一个字、每一个细节才能进行应用。

所以，我们现在自然地过渡到了下一个讨论议题，即尽管技术困难，包括特征提取的难度，但我们如何克服这些困难，在现有的技术条件下尽可能地帮助听障人士的生活？

04 技术与现实的碰撞

问题四：从技术研究走向实际应用，我们可能会遇到哪些现实困难？如何将手语识别技术更好地融入到听障人士的日常生活中？

方昱春：从计算机应用系统的角度来看，难点集中在“接口设计”上。

许多信息类产品，如果对使用者的约束太多，例如人脸识别时需要用户配合特定的姿势、光照条件和设备，那么用户在受限的环境中使用，体验就会不佳，最终这项技术也可能被抛弃。为了让聋人能更好地使用我们的技术，应该提供一种更自然、更无感的体验，让他们能方便地在更多公共场合中感知语言的表达。因此，我认为一个适当的接口是走向实际应用中的一个典型问题。

还有其他一些问题我们在前面的讨论中已经涉及过，比如手语的变化性很大，我们如何满足用户的个性化需求？这些都是需要解决的问题。

另外，我们也多次提到手语识别的难度很高，这会影响我们开发的技术的精度，这些情况都是存在的，这些因素都会影响到整个技术的实际落地和推广。

倪兰：去年我和方老师合作指导了一个关于应急手语的学生科创项目。大家普遍认为聋人群体在日常生活中会频繁使用手语，但实际上，聋人群体是多元化的，也包括那些不会打手语的听障人士，他们的手语熟练程度和教育水平也各不相同。他们对字幕和文本的理解能力也不尽相同，因此我们需要确定哪些场景最需要手语识别技术。

有时，我们在新闻中看到的手语翻译可能并不总是被聋人理解，但它代表了一种对语言权益的尊重。

如果手语识别技术能够发展到聋人在日常生活中都能方便使用，就像拿出手机发短信那样简单，那将是一个巨大的进步。之前vivo曾推出过手语识别和合成技术，聋人朋友尝试使用后发现，输入一句汉语可以逐字打出手势，但如果要识别一个聋人打的手语句子，目前的技术水平还做不到。

在需求分析方面，我们可能需要深入了解聋人最迫切的需求场景，比如医疗领域，中老年听障人士的需求尤其大，他们可能更依赖手语。与年轻人不同，他们可能不太熟悉语音转文字的电子设备。在这种情况下，我们需要考虑手语数据应该采集自哪些人群，以及把医疗术语翻译成手语的挑战，因为很多术语可能在手语中并不存在，直接翻译反而会造成误解。

因此，我认为可能需要将“语音识别”与“手语识别”结合起来使用，并且要考虑数据库采集对象的多样性。

另一个场景是教育领域，聋人也需要学习手语。在学习手语的过程中，提供标准化和规则化的内容是很重要的。

例如，郑州工程技术学院等院校在招收全国各地聋人学生时，会先培训他们共同使用一套手语，然后在四年的学习中不断练习和使用。

在教育领域，我们需要考虑如何为聋人提供课程支持。目前，招收聋人的学校大多使用字幕机，但我们需要更深入了解聋人在哪些场合需要这些产品，并考虑在窗口、银行等公共服务场所的应用。我认为手语识别产品可能需要结合多元化的模式，如果只依赖单一的手语识别，可能会在某些场合受到限制，因为情况特别复杂，尤其是在中国这样地域广阔的国家。手语有很多地域分支，统一的标准可能无法满足所有聋人的需求。

苏剑波：我这边的工作主要是关于机器识别聋人的手势，并将其翻译给健听人，以便在各种环境中，如服务窗口、教育场所或医疗场所，促进聋人与健听人之间的交流。

但我一直不太确定，应该使用什么样的工具来实现这一点。

比如，是否让健听人手持iPad，实时拍摄聋人的手势，然后屏幕上就能显示出他们所说的内容？

这种方式有助于促进双方的交流。然而，在实际应用中，聋人往往不愿意被拍摄。即便解释说拍摄的目的是为了翻译他们的手势，他们通常也不愿意接受。除非在迫不得已的情况下，比如在政府部门或医院需要办事时，他们才会勉强接受这种方式的翻译。但在正常情况下，比如在马路上交流，如果用设备拍摄他们，他们肯定会反感。

我一直在思考，这种技术究竟应该如何转化为实际应用？甚至连最基本的工具使用方式都没搞清楚。我们通常习惯于使用手机，比如不认识的花，就用百度拍一下识别，这是我们日常生活中常用的工具。

但与聋人交流时，我们不能总是带着iPad，或者让他们在iPad显示下进行手势，然后翻译出来。我不知道该如何应对这种情况。

倪老师提到，在特定领域，如医疗和教育，可能不得不使用某些工具来帮助理解他们的意图。但如果要设计一个适合聋人使用的产品，或者一个可以随身携带的设备，让他们在需要与正常人交流时，能够实时显示他们的意图，那将是非常有益的。

但这样的产品是什么呢？我还不太清楚。就像手机那样，但具体该如何操作呢？是通过拍摄手势，然后在手机屏幕上直接表达他们的意图，还是通过语音说出来？我还在探索这方面的解决方案。

田英利：针对苏老师的问题，我认为我们的讨论非常有益。从技术到产品的落地，确实还有许多困难需要克服，路还很长。

关于应该开发什么样的产品，近年来VR和AR技术被频繁提及。我们需要一种自然的产品，而不是让人们感觉像是扛着摄像机或iPad来录制。

想象一下，如果聋人可以戴上一种眼镜，这种眼镜内置有针孔摄像头，能够捕捉他们自己的手势，并将这些手势直接翻译成语音。

当我知道他们的意思后，我就可以回答他们。这种眼镜当然也会有麦克风，能够捕捉我的语音，这时就不需要手语，而是直接将我的语音转化成文字，显示在他们的AR眼镜上。

这样一来，我们就能理解苏老师所讲的情况，即不仅仅是通过摄像头来识别手语，而是将语音、文字和部分肢体语言这些多渠道信息综合起来，帮助我们进行沟通交流。我们不需要成为他们的“灵魂伴侣”，只需要大致理解他们的意图，这对他们的生活就已经是很大的帮助了。

此外，苏老师提到了一个非常重要的问题，即关于拍摄的隐私问题。在摄像头无处不在的今天，我们如何在保护隐私和技术发展之间找到平衡？

05 伦理与隐私

问题五：在开发和部署手语识别系统时，如何确保听障人士的隐私得到保护？我们如何在技术创新与伦理道德之间找到平衡？

倪兰：这确实是我们在构建数据库时一直面临的困扰。起初，我并没有强烈的隐私保护或知识产权意识，是方老师向我强调了在计算机领域中数据保护的重要性，我才开始重视这个问题。

我们采集了大量的数据，但在采集过程中，我们都会与聋人被调查者签订协议，确保他们的隐私受到保护。因此，在数据的公开使用上，我们非常谨慎，会明确询问数据的使用目的。

有时，一些企业会委托进行数据采集工作，我们也会非常小心，担心数据被用于其他目的。

文本数据的情况不同，因为ChatGPT所使用的大部分文本数据都是公开发表的，如新闻报道、出版的书籍或学术论文等。但手语数据无法屏蔽肖像，即使是在脸部任何部位打上马赛克，都会导致语义信息损失。眼睛是表情中最重要的部分，我们经常说它们是心灵的窗户，眼睛的睁大、闭合，甚至眼神都包含了丰富的信息。如果在处理数据时屏蔽了这些信息，就无法进行有效的识别。

因此，我们目前的做法是--有限度的授权使用。

我们确实意识到，如果不发布数据，它们就无法得到广泛应用，但一旦发布，又如何保护这些信息呢？

因此，对于表示不愿让自己的信息被发布的聋人，我们都会做出承诺。保留了原始数据，但仅在不公开的情况下，用于我们自己的研究和观察。

苏剑波：关于隐私保护的问题，我并没有一个特别好的答案。但在这个过程中，我一直在向遇到的人们解释，在公共场合，无论你是残障人士还是健听人，大家都是没有隐私的。

当然，如果有人恶意使用你的肖像或生理特征，那就是另一回事了。这种情况下，应该从法律角度对滥用者进行惩罚。

实际上，任何人只要不在自己家里，在外面就都没有隐私。所以，隐私该如何保护？如何进行过滤？

包括马赛克等手段，现在都可以用人工智能算法恢复成正常状态，这些技术已经没有什么秘密可言。在这个问题上，确实很难做到完全的过滤。当然，倪老师刚才提到的也很对，我们需要尊重使用者的个人意愿。

我会告诉他们，我会如何使用他们的生理图像，如果他们同意，我就使用；如果不同意，我就不使用。

但实际上，我也不断向他们解释，在公共场合下，你的图像很容易被别人使用。所以，让他们逐渐了解现代科技已经发展到何种程度。通过我几次解释后，他们也能理解了。我会给他们看各种各样的视频，让他们明白公共场合下的监控是多么普遍。

但如果有人恶意使用他们的信息，他们完全可以起诉对方，我也会提供帮助。这样，他们就能理解这个问题了。目前没有特别好的办法，每个人都有自己的权利，不容侵犯。

方昱春：尽管在公共场合，我们的部分隐私确实容易泄露，但从管理的角度来看，我们仍然需要建立完善的制度来进行伦理审查。

例如，针对手语识别项目，我们可以邀请专家和聋人代表共同制定符合道德伦理要求的规则。

在数据采集过程中，就像我和倪老师在制作数据集时所做的那样，我们需要向聋人透明地说明为何收集这些数据，以及我们将如何使用这些数据，并征得他们的同意。这本身就是一种保护措施。

在数据管理上，我们也应该制度化，尽量尊重并保护数据，防止泄露。尤其是在涉及商业运作时，我们需要特别注意，因为不当处理可能会让人感到被侵犯。如果能通过预防来保护隐私，那么从使用者的角度来看，他们会更加满意。

在部署手语识别系统时，我们应该避免收部署那些与个人相关的信息。对于这部分数据，我们可以进行加密，并在传输和存储过程中将安全性放在重要位置。我们需要仔细考虑哪些数据应该上传到云端，哪些不应该。

隐私保护也是我们领域的一个重要研究方向。我自己也在研究面部隐私保护技术，目前我们称之为“Face DeID”。早期DeID会对面部打马赛克或添加噪音作为保护方法，但这样就无法保留手语的语言学特征。现在，我们可以使用AIGC等技术，在保留手语语言学特征的同时，保护个人身份信息。

我认为我们的技术有可能实现一个较好的平衡：我们可以利用数据，但同时也能确保使用的数据是安全的。如果我们考虑全面，制度合理，在技术进步同时也捍卫伦理道德。

田英利：我认为各位老师的讨论非常精彩，特别是在手语识别方面，因为我们需要面部表情、手势以及身体动作的配合。所以，如果简单地对视频打马赛克或其他处理，其他人可能就无法使用这些数据了。正如方老师所提到的，信息保护在这一领域中极为重要。

我在IBM工作时，我们组参与过指纹识别项目。指纹是唯一的，一旦丢失，就无法再用于银行密码等。但我们的同事提出了一种可撤销的生物特征识别方法。这启发我思考，未来我们或许可以对手脸进行某种变换，既保留了对计算机视觉有用的信息，又不泄露个人的重要信息，这是一个值得探索的方向。

06 读者提问

1，用多模态大模型来做识别手语会不会更好？

田英利：关于使用多模态大型模型进行手语识别的问题，我的回答是肯定的。当然，采用多模态的方法肯定会带来更好的识别效果。目前，研究和开发的趋势正是朝着这个方向发展。因此，简单来说，使用多模态大型模型进行手语识别是一个明确且必要的前进方向。

2.有团队正在考虑如何建立一个类似于“手语-GPT”的基础模型，能兼容全球各地的手语。那么，手语语法和方言是难题吗？还是说，只要数据充足就能完成“暴力美学”？

方昱春：这个问题让我想起了我国著名的语言学家赵元任，他是一位能够在极短的时间内学会不同地方方言和多国语言的超级语言学家。

他掌握和使用语言的速度非常快，是人类智能的一个杰出代表。虽然这样的例子可能非常罕见，但如果我们的人类能够具备这样的能力，对多种方言和语言具有极高的适应性，那么我们也许能够让一个“手语GPT”模型也具备这种多方言的适配能力。

因为尽管语言千变万化，但每种语言都有其共性，不是完全无法互相学习的。因此，我认为这是一个值得探索的有益想法。

倪兰：语言学的终极目标是探索人类语言的普遍性原理。包括美国语言学家乔姆斯基在内，许多学者都在寻找方案，希望用一套规则来解释人类语言的共性，语言的核心在于形式如何表达意义，我们希望找到语言形式的共同规则，以及与意义的匹配方式。

比如，所有的语言都包含否定和疑问的表达，尽管表现形式各异；又比如每种语言中能够表达意义的语音数量是有限的。但我们尚未找到一套完美的规则来解释所有人类语言，这是因为我们对语言的理解还不够深入。

有时看国外的聋人电影或电视剧，我发现不同国家的手语之间存在一定的相似性。

例如，我们会看到日本手语与中国手语有很多相同的手势，这表明手语的前身——身势语——在人类中有着共通之处。如大多数人通过摇头表示否定，尽管也有的文化中使用仰头来表示否定。

我相信，手语之间的可懂度可能比有声语言高。

有研究表明，使用不同手语的人之间的可懂度，高于使用不同有声语言的人。周文罡教授也曾提到，他们使用美国手语、德国手语等其他国家的手语数据集来训练，这表明其中存在一些共通的元素。

我们目前对手语的语音分析都基于美国学者William .Stokoe对手语的手形、位置和运动的切分，以及后来加入的方向和表情体态分析。这些基本特征分析在每一种手语中都具有价值。因此，如果我们能够构建这样一个模型，并将这些特征导入手语的分析标注中，我们一定能发现许多人类语言共通的东西。

苏剑波：我的想法可能相对简单，但我认为这里有一个值得探讨的小方向。我们知道人类有多种不同的语言表达方式，包括口语、手语、肢体语言，以及各种方言等，这些都是非常个性化的表达形式。我在思考，是否有可能通过识别个体的脑波来取代对语言的感知和手语的识别？这是否是一个可行的方向？

因为脑波的感知更加个性化，这可能会为我们提供一个全新的交流方式。我提出这个问题，希望能与大家一起探讨这个可能性。

田英利：马斯克的Neuralink项目就在探索人脑与计算机接口的可能性。他们最近似乎也取得了一些进展，这可能是最直接的方式来实现人脑与机器的交流。

至于“手语GPT”，从技术角度看，如果我们能够获取全球范围内的大规模数据，我认为是有可能的。就像现在不同语言之间的翻译，曾经被认为是一项艰巨的任务，但现在ChatGPT可以轻松地在英文和中文之间切换，没有任何问题。

但从实施的角度来看，我认为还存在一些困难。毕竟，聋人群体相对较小，当需要大量的计算资源和技术支持时，是否有政府或产业愿意投入巨大的财力和数据来服务这样一个相对较小的受众群体？

他们需要考虑实际的投资回报，如果投入巨大但收益有限，甚至可能不赚钱，只有少数人受益，他们是否愿意这样做？

因此，我认为对于手语识别或帮助残障人群的项目，需要政府的政策支持和资助，以及不同产业的协助。但这些项目能盈利多少，我持保留态度。

此外，残障人士本身对高科技的接受程度可能有限，加之全球老龄化问题，一些老年人可能存在听力或视力损失。让他们使用电话或平板电脑可能更加困难。我们如何让这些弱势群体享受到科技的红利，需要政府的大力推广和支持，单靠个人力量是难以实现的。

不知不觉，我们已经讨论了两个小时，非常感谢大家的分享。由于时间关系，我们今天的论坛讨论就要告一段落了。非常感谢大家，感谢雷峰网为我们提供了这样一个交流思想、碰撞智慧的平台。

希望在未来的论坛中，能有更多有需求的人士加入我们的讨论。

也希望我们的技术能够在不久的将来，真正应用到他们的日常生活中。

本文作者吴彤，关注AI for Science，欢迎添加微信（icedaguniang），交流认知，互通有无。

专题

AI for Science 查看更多文章