“人类与虚拟世界之间的连接与沟通,必然要通过人机交互技术来完成,其实我们所做的事情最终会在元宇宙中体现出来,也会成为元宇宙基础设施建设的重要一环。”
在CNCC大会前的专访中,张晴晴说道。
第十八届中国计算机大会( CNCC 2021)将于10月28日-30日在深圳国际会展中心举行,CNCC由中国计算机学会(CFF)主办,国家超级计算深圳中心承办(深圳云计算中心),香港中文大学(深圳)协办,是中国计算领域首屈一指的年度盛会。
在111多场技术论坛中,AI科技评论注意到,爱数智慧创始人兼CEO张晴晴联合产学各界大咖承办了一场【人机交互技术的机遇与挑战】分论坛。提到“人机交互”难免会让人想到最近风靡全球的一个新概念——元宇宙(MetaVerse)。
在1992年科幻小说《雪崩》中,元宇宙被描述为一个脱胎于现实世界,又平行于现实世界,且相互影响、始终在线的虚拟世界。“元宇宙并非遥不可及的人类幻象,随着人机交互技术的发展,也许未来人类能够在虚拟世界与真实世界之间自由穿梭”。张晴晴告诉AI科技评论,爱数智慧之所以在CNCC大会上承办此次论坛,元宇宙的爆火也是一个契机。
“无论是真实世界,还是虚拟世界,未来人机交互技术终究会覆盖到人类生活的所有场景中”。希望通过这场论坛让更多人了解人机交互技术的发展现状,也希望通过产学结合的交流平台,为人机交互的未来发展拓展出更多的思路。
AI科技评论了解到,本次论坛邀请中科院声学所研究员、博士生导师颜永红;爱数智慧创始人兼CEO张晴晴;美的集团IoT副总裁兼CTO向江旭;阿里巴巴达摩院语音实验室田彪、香港中文大学(深圳)数据科学学院教授宋彦出席,四位产学专家将就人机交互、智能语音技术的应用、对话式AI技术、语料库建设、多模态语音交互技术、自然语言处理等重点议题作主题报告。
作为论坛主席,张晴晴也将带来一场题为《多语种对话式AI技术及语料库建设》的主旨演讲,和与会嘉宾分享对话式AI技术的机遇以及爱数智慧语料库建设成果。
在论坛开始前,AI科技评论有幸采访了张晴晴,与她聊了聊语音交互技术当前的机遇与挑战。
张晴晴,爱数智慧创始人兼CEO,语音技术专家,对话式AI引领者。巴黎法国国家实验室LIMSI-CNRS语音交互处理博士后,曾任中国科学院声学研究所副研究员,擅长大词汇连续语音识别的声学建模以及语言建模工作。曾获得2014年度中科院杰出科技成就奖和科学技术厅科学技术进步奖一等奖。2021年被聘为中国计算机学会CCF女工委,获得创业邦最值得关注的女性创业者。
在张晴晴看来,人机交互也好,虚拟世界也好,所有的 AI 要解决的终极问题是人的情感诉求。“人与机器之间的交互不应该只是一问一答的简单对话或者命令控制,而是要理解语言的上下文,识别人的情感需求并做出相应的反馈”。
对话式的交互场景在我们的日常生活中无处不在。就目前的落地场景来看,人机对话模式仍出处在机械、呆板的初级阶段,例如,当我们感觉室内气温很高时,通常会命令智能设备“打开空调”,而不是说一声“好热呀”,自然而真实的情感表达可能无法被AI所理解,并做出调低温度等反馈动作。
“对话式AI的精髓是让人类能够随心所欲地表达”,张晴晴强调。在技术层面,对话式 AI 涉及语音识别、自然语言理解和语音合成等核心技术。想要通过这些技术实现人和机器之间更自然的对话,张晴晴谈了两点技术挑战:
一是个体语言体系的差异化,由于所处地域、文化、教育背景的不同,每个人的语言表达都是独特的,这种个性化在人与人之间的沟通中都难免出现理解偏差,更何况是一台机器。对于AI而言,中文不是一种语言,而是13亿种语言。
二是对话式口语常常会有语序颠倒,犹豫、迟疑产生的停顿,在复杂的多人交互场景中,也不可避免会出现语句打断、抢话、交叠音等问题,这些语音特征为 AI 建模带来了很大困难。
在张晴晴看来,真实的对话数据和多语种语料库建设是解决上述问题的关键。“当前行业提供的大部分人工智能数据都以朗读式训练数据为主,而人与人自然的对话式数据对训练对话式 AI 有更加关键的作用;我们需要为机器注入知识图谱、中文、方言、外语等多种语料,才能让机器像人一样理解自然语言”。
据悉,爱数智慧已拥有超过20万小时数据产品,涵盖超过60种语言,既有英语、日语等常用语种,也提供马来语、泰语、印尼语等特色语种。张晴晴于2016年创办人工智能数据公司爱数智慧,面向智慧金融,智能出行、智能家居、智能社交、智慧终端等领域提供数据服务,包括数据的定向采集、数据的处理、标签化,以及高效的数据处理工具等。在她看来,“人工智能三驾马车中,数据是算法的食粮,数据好比原油,只有经过清洗、分类、标注、质检和筛选等结构化过程,才能用于AI模型训练。”
在本次主题报告中,张晴晴将从对话式AI出发,探讨对话式口语交互为语音识别带来哪些挑战,如何通过双语声学建模、发音词典如何构建双语识别系统,解决非母语发音的插入语问题,以及介绍多语种语料库建设对AI识别率提升起到积极的作用。
值得关注的是,为了满足日益多样化的场景需要,多模态取代单一人机交互成了产学界普遍关注的新方向。所谓多模态是指融合视觉、听觉、触觉、嗅觉甚至味觉的交互方式,其表达效率和信息都优于单一的视觉或听觉模式。张晴晴表示,在自然语言、视觉和语音技术日渐成熟的今天,多模态的兴起是人工智能向前发展的必然趋势。
“人类对世界的认知也并不是单模态的。在AI真正落入产业的过程中,我们发现语音、图像、文本之间的相互融合是一个不能避免的问题。”在人机交互过程中,机器要想感知人的情感色彩,光靠声音是不够的。人的情绪既可能体现在声音中,也可能蕴含在面部表情或语言内容中,情绪感知是一个多模态综合评价的结果。
在本次论坛中,美的集团IoT副总裁兼CTO向江旭、阿里巴巴达摩院研究员田彪都将带来有关多模态人机交互的主旨演讲。
CNCC2021【人机交互技术的机遇与挑战】技术论坛将于2021年10月28日13:00-16:00在深圳国际会展中心CC105B召开,爱数智慧创始人兼CEO张晴晴担任论坛主席,中科院声学所研究员、博士生导师颜永红担任共同主席。本次论坛分为主旨报告和颁奖仪式两个主要环节。以下为参会嘉宾的报告内容:
分享嘉宾:颜永红,中科院声学研究员、博士生导师
题目:智能语音技术商用价值与应用前景
随着智能语音在各场景的应用落地,智能语音交互核心技术在关键行业领域的商业应用前景和价值也越来越大,将成为引领新一轮产业集群开发与传统企业升级的核心认知。报告将深度评估与解析全球及我国在智能语音领域关键性技术并给出前瞻的应用创新建议。
分享嘉宾:张晴晴,爱数智慧创始人兼CEO
题目:多语种对话式AI技术及语料库建设
如今对话式AI成为人工智能行业发展的重要方向,在各大行业场景中得到广泛的应用。但人工智能要想与人实现更自然的对话,还需克服很多难题。人机对话面对较为复杂的场景,其中多语种混杂现象愈发频繁,如何提升机器识别多语种混合表达的能力?报告从对话式AI出发,探讨对话式口语交互为语音识别带来哪些挑战,通过双语声学建模、发音词典如何构建双语识别系统,解决非母语发音的插入语问题。同时,多语种语料库建设对AI识别率提升起到积极的作用。
分享嘉宾:向江旭,美的集团 loT 副总裁兼CTO
题目:多模感知和人机交互在智能家居的应用探索
AI与IoT的结合已经是行业趋势,AI根据人机交互技术和对海量不同场景数据的学习,进行对未来的预测和洞察,而多模感知将大量的数据“采集起来”,由IoT将这些数据“分发”到AI的交互技术当中,实现世界的“AI大脑”端到端的链接。智能家居是离消费者最近的AIoT场景,报告将分享美的多模感知技术、人工智能技术与物联网在智能家居的应用中的落地融合。
分享嘉宾:田彪,阿里巴巴达摩院语音实验室
题目:多模态语音交互的技术实践及发展趋势
随着5G和AIoT技术的快速发展,语音和视觉等多模态技术的融合逐步加深,在新型人机交互入口中的作用越来越明显,本报告以阿里巴巴在智能交通领域的「地铁多模态语音售票机」和协同办公领域的「钉钉智能无人前台」的产品研发实践为基础,介绍声学设计、麦克风阵列处理、远场语音对话、人脸检测与识别等多模态技术的设计思想与方案架构,在多模态数据的助力下,如何在公众嘈杂场景进行多模态融合从而给用户带来更好的产品体验。同时结合产业落地情况与研究进展介绍下一代的产品和技术演进趋势。
分享嘉宾:宋彦,香港中文大学(深圳)数据科学学院教授
题目:面向领域的中文自然语言处理面对的数据挑战及机遇
自然语言处理作为人工智能的核心板块,承载着大量针对大规模以文本为载体的数据处理的需求,近年来发展出了各类基于大数据的处理方案(例如预训练模型等),对数据的数量和质量提出了较高的要求。与通用领域相似,面向特定领域的文本处理任务,从基础的例如分词、命名实体识别等,到复杂的例如阅读理解、机器翻译等,都需要大规模高质量数据的支持。然而,与英文相比,目前中文特定领域的数据建设尚不成熟,不论是可用于训练预训练模型的高质量未标注文本,还是针对特定任务的高质量标注数据,都十分稀缺。这些数据的稀缺使得目前难以训练高性能的中文文本处理模型,进而导致中文特定领域目前仍缺少公开的、被广泛使用的高质量的基础文本处理工具。因此,大力发展中文领域内数据建设,是一项长期且具有重大意义的工作,能够为未来中文文本处理在各个行业的深度发展提供基石,以至于成为自然语言处理发展下一个阶段的重大且实际的机遇。
论坛最后,还将举办“中文临床医学文本分词与命名实体挑战赛”颁奖仪式,获得该比赛奖项的参赛者将获得相应证书和奖金。该赛事由爱数智慧和香港中文大学(深圳)联合主办。从9月1日正式启动到10月28日截止,持续近两个月的赛程集结了中科院自动化所、复旦大学、南京大学、华为、平安等高校和企业超过40个团体的热情参与。
本次NLP竞赛围绕中文临床医学文本内容,对医疗文本的分词和命名实体进行自然语言处理任务,以医疗问答为切入点,推动NLP技术创新,努力扩展到更多应用场景。来自爱数智慧和香港中文大学(深圳)、英特尔OpenVINO中文社区的专家组成竞赛组委会,全程给予了答疑支持和指导。
本次竞赛分三个赛道:临床医学文本分词、临床医学文本NER和OpenVINO 推理。参赛团队可同时选择多个赛道参赛,最高可获得总额11,000元奖金。获奖团队将在本次论坛上进行现场成果演示。
CNCC是计算领域学术界、产业界、教育界的年度盛会,宏观探讨技术发展趋势,今年预计参会人数将达到万人。每年特邀报告的座上嘉宾汇聚了院士、图领奖得主、国内外名校学者、名企领军人物、各领域极具影响力的业内专家,豪华的嘉宾阵容凸显着CNCC的顶级行业水准及业内影响力。
CNCC2021大以“计算赋能加速数字化转型”为主题,特邀嘉宾包括ACM图灵奖获得者John Hopcroft教授和Barbara Liskov教授,南加州大学计算机科学系和空间研究所YolandaGil教授,陈维江、冯登国、郭光灿、孙凝晖、王怀民等多位院士,及众多深具业内影响力的专家。今年的技术论坛多达111个,无论从数量、质量还是覆盖,都开创了历史之最,将为参会者带来学术、技术、产业、教育、科普等方面的全方位体验。大会期间还将首次举办“会员之夜”大型主题狂欢活动,让参会者畅快交流。
雷锋网雷锋网雷锋网