2016 年是雷锋网 AI 科技评论非常重要的一年,我们围绕人工智能做了一系列的业界、学界、开发者报道,也请了一系列导师大牛过来给我们做技术解读的公开课,在给这些导师大牛提供了一个绝佳展示舞台的同时,也给读者们带来了最深度的公开课内容,下面是雷锋网 AI 科技评论年度盘点之语义识别篇。
嘉宾介绍:徐博士,约翰霍普金斯大学语言和语音实验室博士。2012年毕业后加入微软总部,先后在Bing和微软研究院从事自然语言处理和机器学习相关的研究和产品开发,是cortana语义理解和对话系统团队以及wordflow输入法团队的主要成员。
中文分词是中文自然语言处理的一个非常重要的组成部分,在学界和工业界都有比较长时间的研究历史,也有一些比较成熟的解决方案。今天我们邀请了出门问问的两位重磅嘉宾徐博士和Jason,和大家一起来回顾一下中文分词的发展,着重谈一谈现在比较流行的一些基于机器学习的分词方法。内容主要包含以下几部分:
什么是分词,为什么要做分词;分词有哪些常见的传统方法;机器学习在分词领域有哪些应用;深度学习在分词中的应用;除了深度学习之外,分词领域还有那些新的发展方向;中文分词在语义分析中的应用;在实际的应用中遇的一些困难。
中文分词是NLP难题中的一道必然工序,最近因为深度学习的到来,很多人开始希冀这个新的机器学习算法可以为它带来一些全新的东西。本文出门问问的两个资深研究人员从什么是中文分词、中文分词的传统方法、中文分词结合深度学习以及中文分词在语义分析中的应用,在他们产品实际应用中遇到的问题,为我们由浅入深、从理论到应用做了一堂生动地科普,向我们展示了中文分词和商业产品真正结合时的美妙碰撞。
Human-like learning在对话机器人中的魔性运用
嘉宾介绍:戴帅湘,前百度主任架构师,曾长期担任百度Query理解方向负责人,是自然语言理解方面的技术专家,曾荣获第一个也是迄今为止唯一一个以NLP技术为核心的百度最高奖。2010年提出“Query改写模型”给百度搜索引擎技术带来了跨时代的飞跃,使得搜索相关性和广告收入均大幅提升。
对话机器人很多,像Siri,小冰,度秘,Allo都能在你有空的时候跟你贫贫嘴,不过随着厂家和用户意识到凭空做出一个高度通用的对话机器人是非常不现实的,对话机器人的姿态也发生细微的变化——厂家们试图从某些垂直领域开始入手深根,并且从纯聊天功能发展到这个对话机器人能为用户完成什么指定的任务功能。一下子为“只说不做” 的对话机器人找到了一个新的场景。
不过,这个全新升级的对话机器人,重心移向代替人决策,并帮用户完成任务。
它如何听懂用户想做什么事情?如何做到聊天过程中都不能达到的Human like leaering?
然后它如何知道第三方App能完成哪些任务,需要点击哪里,然后才能与用户想做的事情对接?
当它的重心变成了为用户完成任务时,它的核心技术要求是什么?
嘉宾介绍:王砚峰,搜狗公司桌面事业部高级总监,桌面研究部和语音交互技术中心负责人。承担输入法、号码通、个性化新闻等搜狗桌面产品在大数据和算法研究方面的工作,同时负责搜狗智能语音交互技术,带领语音和语义技术团队实现了业内顶尖的语音交互能力,并致力于智能语音技术的产品化创新。
在雷锋网公开课中王砚峰指出:语义理解技术至少有两个关键的因素:第一是自然语言处理技术,利用统计自然语言处理算法提取文本中的实体词以及依存关系;第二是要有全面而丰富的知识库,配合自然语言处理技术,才能得到用户的准确意图。
本期公开课的要点如下:
“结合上下文的‘多对话解析’”是如何做到的?其中的难点是什么?
语义理解的准确率,整个行业目前最高能达到多少?如何提高?
如何解决中英文混合语句的语义分析问题(比如,“帮我呼叫Stephen William Hawking”)?中英文区分的难点在哪?
在深度学习的状态下,机器能够对用户的语言习惯适应到什么程度?能理解用户的一些情绪上的语言习惯吗(如讽刺等话语)?
搜狗与科大讯飞、思必驰等同行技术的差异化(包括语音识别、语义/逻辑分析)?
有没有机会实现 Google Now 那样的功能?比如语音调取应用,检索其它应用内的信息,自动给出答案。
嘉宾介绍:亓超,自然语言处理方向硕士,AI领域开放域聊天和chatbot顶尖专家,10年科研与工程经验。曾在佳能、腾讯、阿里负责推荐算法和人机对话系统研发;2014年微软小冰开放域聊天技术创始人;百度T8Lead;度秘聊天技术负责人;从零写了微软小冰和百度度秘唯一两款目前有实际应用的交互系统。
语义理解简单来说,就是让计算机听懂用户说了什么,然后可以进一步回答用户的问题或与用户对话。这类技术在现实场景中的应用有大家比较熟知的微软小冰与百度度秘。锤子手机中 Bigbang 功能也是基于语义理解技术中的语义分析功能进行的创新。本期公开课请到了开放域聊天和 chatbot 顶尖专家——三角兽科技的 CTO 亓超,为大家揭开机器人聊天的秘密。
本期公开课的主要内容:
目前语义理解技术主要用在哪些场景和应用里?
相比做语音识别的公司,提供语义理解的团队看似要少一些,其中的难点是什么?
理解中的语义理解公司往往需要大量标记好的语料数据,这些数据如何形成?
一个完整的聊天机器人或者多轮对话系统,应该包含哪些技术模块?
详细介绍下什么是开放域聊天技术吗?开放域聊天技术与传统用关键字、模板或者人工参与的聊天技术的不同之处是什么?