在科技日新月异的今天,手语识别作为一种新兴的跨学科研究领域,正逐渐走进公众视野。
近期,我们邀请了上海大学的方昱春教授,这位在计算机视觉和手语研究领域深耕多年的资深专家,与我们分享了她如何将计算机视觉技术与手语研究相融合,开辟出一片新的研究天地。
方教授的研究重点在于利用计算机视觉技术(CV)探索手语识别,特别是通过深度学习方法来求解这一复杂而神奇的自然语言交流形式。目前她和团队已经在多模数据采集、孤立词识别、连续手语识别以及人体姿态建模等四个方向上开展了研究。
实际上,方教授的学术研究始于人脸识别,随着时间的推移,她的研究兴趣逐渐扩展到手语识别这一领域。
2003年,她在中科院自动化所获得博士学位,之后前往法国国立信息与自动化研究院做博士后,从事图像检索研究。虽然手语研究并非她最初的研究重点,但在2005年加入上海大学后,方教授逐渐将研究重心转向了手语领域。
特别是在2017年,她协助本校手语语言学专家倪兰教授筹建面向人工智能研究的手语数据库,并在2018年获得上海市科委项目支持,正式开展手语识别研究。
在方教授看来,手语研究不仅是技术探索的过程,更是深入理解人类认知智能机制的重要途径。她指出:“手语作为一种自然语言,尽管其发展历史相对较短,但它所蕴含的关于语言发展和认知机制的信息是极其珍贵的。”
如今,方教授的研究不仅关注于手语的理论研究,更致力于解决手语在实际场景中的应用问题,为聋人群体在应急、医疗和购物等实际场景中提供数字化技术支持。方教授和团队正在开发的应用程序和小程序,正是这一目标的具体实践。
此外,她也指出,随着大型语言模型等前沿科技的发展,手语识别研究将面临新的机遇和挑战。她的团队正在积极探索结合计算机视觉和自然语言处理的方法,以期在手语研究领域取得更多突破。
以下为对话(经编辑):
01 计算机视觉学者做起手语识别
雷峰网:方教授,我注意到您是计算机视觉(CV)出身,手语研究在您的研究工作中所占比重在逐年增加,能具体介绍下您是如何把两者集合起来的吗?
方昱春:简单来说,计算机视觉和手语的结合,形成了“手语识别”这一研究方向。
手语识别研究是数据驱动的,而手语数据的获取和标注相对复杂。之所以我涉足这一领域,是因为倪兰老师参与了国家和上海的科研活动,希望将人工智能技术应用于手语研究,这促使我开始着手语数据的采集和研究规划。
在搭建手语识别系统时,还有另一种技术路线--基于传感设备(如数据手套和位置跟踪器)的系统。穿戴式设备如数据手套也曾是主流手语识别研究方向。
随着深度学习在人脸识别应用上的成功,手语识别研究也逐渐向机器学习和计算机视觉结合的方向发展。
目前,我的研究小组跟踪了计算机视觉领域的主流方法,正在以深度学习方法为主来处理手语识别问题,后续研究计划更加关注手语语言学交叉学科问题的探索。
我和团队已经探索了四个主要方向,包括多模态数据采集、孤立词识别、连续手语识别,以及人体姿态建模和AI生成技术应用于手语研究。
在连续手语识别方面,我想强调的一点是,我们试图建模手语运动的多模态特性,比如头部、面部、双手和躯干之间的空间关系和运动关系,以实现对手语更深入的理解。这是我们团队过去几年一直在努力的方向。
随着人工智能生成内容技术的发展,我们开始尝试了一些手语的计算生成研究,这部分工作还处于初级阶段。
雷峰网:手语识别这一研究领域过去很少人关注,国内在这方面大致经历了怎样的发展阶段?
方昱春:计算机视觉的手语识别研究经历了20年左右的发展,随着深度学习技术的发展,基于机器学习和计算机视觉的手语识别才开始蓬勃发展,近两年里手语识别研究的规模迅速增长。
我是在2005年加入上海大学,在2017年才开始规划手语研究,2018年开始正式投入到手语研究中。2017年,我协助倪兰老师筹备数据建设,这年对上海大学手语研究来说是一个重要的里程碑,倪兰教授建立了“中国手语及聋人研究中心”,非常有魄力。
雷峰网:您认为手语识别研究的长远目标是什么?
方昱春:手语作为一种自然语言,蕴含着人类的认知智能机制。与文字语言或口语相比,手语形成的历史相对较短,这使得手语成为研究语言发展和认知机制的宝贵研究对象。
从理论角度来看,我们希望能够更深入地理解这些机制。
而从应用角度来说,我们的目标是解决手语在实际场景中的应用问题,比如在应急、医疗和购物等场景中,为聋人社区提供数字化的技术支持。我们正在尝试开发应用程序和小程序,来实现这些目标。
雷峰网:方教授,手语研究现在是您研究工作的主要部分吗?对您招生方面有何影响?
方昱春:手语研究是我目前研究的主要任务之一,自从开始着手语项目以来,我投入的精力和资源都在不断增长。
在招收研究生方面,我们也非常希望有跨学科背景的学生加入,比如语言学和机器学习的双重背景,但找到这样的综合型人才非常困难。
幸运的是,上海大学有倪老师这样在手语语言学领域有着深厚积累的专家,未来,我和倪老师计划合作指导学生,培养具有交叉学科背景的复合性人才,这一目标对学生的职业发展和人生规划将非常有价值。
02 数据是手语识别研究的最大瓶颈
雷峰网:我最近对田英利教授的手语研究进行了专访,您可能已经看过了。田教授的研究专注于美国手语,并开发了一个实时手语语法错误识别系统。这个系统旨在为手语学习者提供即时反馈,并有望在未来提高精确度后,集成到手机或电脑中,以便将聋哑人的手语翻译给听力正常的人。请问您在这方面的研究是否有相似之处或存在差异?
方昱春:从我个人的角度来说,我对手语研究还是一个新手,我们实验了从计算机视觉角度研究手语的基本方法,我认为这些方法在应用上是具有实用价值的,对未来的理论研究也特别有帮助。
我和倪老师在讨论上海大学未来的手语研究规划时,了解到田英利教授开展了手语研究,于是我决定联系她,促进不同手语研究之间的交流。虽然我们研究的手语语种、可能不同,但背后的机理是可以互相借鉴的,我们可以通过比较美国手语和中国手语来互相验证。
实际上,我最初进行手语研究时,也是从孤立词的识别开始,使用的是美国手语(ASL)的数据集。正如我之前提到的,数据驱动的研究离不开数据。在我们自己的数据准备就绪之前,我们主要依赖开源数据集。
那么,无论是美国手语还是中国手语,实际上在不同地区之间,手语的表现形式还是有所不同的,就像方言一样,会有变化。
目前,中国科学技术大学、西安电子科技大学、中国科学院计算所和自动化所,是国内开展手语识别非常有代表性的研究机构。团队之间的合作沟通一定是有益的,如推动数据库共享等。
雷峰网:手语也有“方言”之分,目前您使用的手语数据集,是否主要来自于上海一带所使用的?
方昱春:我们目前在上海进行的手语研究还处于比较基础的阶段,比如数据的分割和预处理,还没有深入到识别层面。
我们算法研究使用的数据集叫做“中国手语识别数据集”(CSL),这是由中国科学技术大学的研究团队建立的。
目前国家层面和政策层面为了帮助聋人群体,做了很多语言推广工作,通过制定新的标准来推广手语。
虽然对于我们这些不打手语的外行人来说,不能辨识不同地区的手语方言,但是关于手语的这种地域差异,还有很多问题需要研究。
雷峰网(公众号:雷峰网):国内目前也有中科大、西电、中科院等几支手语识别的领先团队,所使用的手语数据是否针对特定地区?
方昱春:是的,这几所单位开展手语识别研究,都具备丰厚的积累。针对特定的手语方言的研究还非常少。
上海的手语语言学发展较为先进,倪老师和上海的聋人群体建立了长期的联系,并开展了实际合作。
从计算机视觉研究的角度来看,我们更多地使用德国的凤凰(PHOENIX)数据集,因为德国的手语数据集上做出来的标杆算法较多,我们希望了解自己的算法达到了什么程度。德国的标杆数据集开源较多,因此大家都愿意使用它来验证自己方法的进步。
雷峰网:使用德国手语数据集进行研究会有语言不通的问题吗?这对我们的研究方法有影响吗?
方昱春:从计算机视觉的角度来看,使用德国或其他国家手语数据集是没有问题的,方法是有通用性的。视频中包含的主要是上半身的多模态运动,这些信号对我们来说都是一样的。尽管如此,从语言学的角度来看,不同语言的手语确实存在差异,因为它们属于不同的语系。
雷峰网:在开发数字人进行手语应用时,您是否遇到了一些挑战,比如聋人群体可能无法理解数字人使用的手语,或者不同企业开发的数字人在手语表达上可能出现同质化的问题?
方昱春:首先,我们面临的最大挑战是手语数据的缺乏。
我们会选择使用德国凤凰(PHOENIX)数据集,因为它将场景限定在天气预报上,问题因场景限定而简化,他们提供公共研究的开源数据量很大,他们的团队开展了语言学家和计算机科学专家的合作,是一个很好的模式。
第二个挑战是,手语语言学专家和语言学专业人员的缺乏。
上大大学手语识别研究,有幸能获得倪兰老师的指导。
如果仅从计算机视觉的角度解决手语识别问题,不了解手语语言的特点,不了解聋人的语言特点,所开发出来的算法或模型会脱离实际应用的需求。
田英利教授的工作就是一个跨学科合作的典范,她结合了语言学和计算机视觉技术,我认为她的交叉应用选点非常新颖。倪老师也非常赞赏田教授的工作,并特意推荐给我们上海大学团队参考。
雷峰网:我们也非常关注前沿科技对您工作的影响,比如去年推出的ChatGPT和今年的Sora,它们在自然语言处理方面取得了显著成就。这些模型背后的设计理念和技术路径,对您做手语识别研究有何启示?
方昱春:我们团队也一直在关注大语言模型的发展。我们正在计划利用学校新建的大型GPU集群,开展更多大语言模型相关的研究。
在结合计算机视觉(CV)和自然语言处理(NLP)方面,在中科大团队将自然语言理解技术应用于手语识别研究的启发,我们团队近期也提出了一个解决方案,取得了显著的效果。
雷峰网:我们注意到,大模型的出现让很多人希望建立一个全球或国家通用的手语大模型。但这确实面临挑战,尤其是数据获取困难。手语数据通常包含上半身,涉及肖像权和隐私问题。您是否主要使用倪兰教授收集的数据库进行数据研究?
方昱春:为了妥善使用数据,确实需要健全隐私保护机制。我们团队在数据采集和使用方面,都严格遵守隐私保护的约束。
手语理解数据集面临的最大的挑战在于数据标注问题。当采集到孤立词或连续手语句的视频后,可以进行什么程度的标注?目前,文字形式自然语言的自动分词已非常成熟。但是,要将手语视频分解成音韵要素,自动处理难度非常高,人工标注工作量会非常大。
在接下来的线上圆桌讨论中,我希望和大家一起探讨手语识别领域的数据之困。
本文作者吴彤,欢迎添加微信(icedaguniang),交流认知,互通有无。
|GAIR live 圆桌预告
3月18日,北京时间20:00-22:00,雷峰网将举办主题为「AI+手语识别,技术革新与应用前景」的线上圆桌论坛。
本次论坛嘉宾有,美国纽约城市大学田英利教授、上海交通大学自动化系苏剑波教授、上海大学计算机工程与科学学院方昱春教授、上海大学文学院倪兰教授,共同分享他们的见解和研究成果。
“全球人工智能与机器人大会”(GAIR)始于2016年雷峰网与中国计算机学会(CCF)合作创立的 CCF-GAIR 大会,旨在打造人工智能浪潮下,连接学术界、产业界、投资界的新平台,而雷峰网“连接三界”的全新定位也在此大会上得以确立。
经过几年发展,GAIR大会已成为行业标杆,是目前为止粤港澳大湾区人工智能领域规模最大、规格最高、跨界最广的学术、工业和投资领域盛会。
GAIR Live 作为雷峰网旗下视频直播品牌,旨在输出新鲜、深度、原创的大咖访谈与对话内容,打造辐射产、学、研、投的特色线上平台。
|手语相关资料
1,《专访纽约城市大学田英利教授:用多通道、多模态的方法「看懂」手语》https://mp.weixin.qq.com/s/jgng2-6tiG9HC9C7FEbMLA
2,《Multi-Modal Multi-Channel American Sign Language Recognition 》https://gairdao.com/doi/10.1142/S2972335324500017
|IJAIRR正在邀约论文和专题
《国际人工智能与机器人研究期刊》(International Journal of Artificial Intelligence and Robotics Research,简称IJAIRR),是由新加坡GAIR研究院与世界科技出版社联合出版的国际学术期刊。
作为全球首本专注于人工智能(AI)、机器人技术(Robotics)以及基础科学交叉研究(Research)的期刊,IJAIRR致力于成为AI与机器人领域研究的权威发布平台。
IJAIRR欢迎各类研究论文、评论文章、短篇论文、书评以及专题(Special Issue)形式的投稿。
我们特别关注那些在顶级AI会议上发表并现场展示,但缺乏长期沉淀平台的优秀论文。为了给这些论文及其作者提供一个更广泛的发表和推广渠道,IJAIRR现正积极邀约相关论文投稿。
(1)“如果您在本领域顶级会议上发表的文章(或即将发表)不超过一年,我们将协助您稍作修改后在IJAIRR期刊上发表。
(2)如果您领导的团队在顶级会议上有多篇论文发表,并希望在IJAIRR上围绕特定主题策划一个专题(Special Issue),我们诚挚邀请您深入讨论合作事宜。
(3)如果您是顶级会议的组织者,并有意与IJAIRR合作,针对特定会议策划一个专题(Special Issue),我们也期待与您具体商讨合作细节。
IJAIRR期待与您携手,共同推动人工智能与机器人研究的发展。
联系人:IJAIRR创刊主编朱晓蕊博士,xiaorui_zhu@gair.sg
关于期刊创刊主编等更多信息,可点击
https://mp.weixin.qq.com/s/gEctQolbEqqf2eVwBAkdoA
关于雷峰网、GAIR大会、GAIR研究院(期刊和在线社区)的详细介绍,请阅读朱晓蕊教授的专访:https://mp.weixin.qq.com/s/Qn7Gc3rVijQhhK0hTSrgxw
IJAIRR期刊的主页链接为:https://gairdao.com/journals/ijairr