IBM沃森(Watson)系统来自于打造了现代IBM的首席执行官Thomas Watson Sr,2011年该系统在美国的电视问答节目Jeopardy!(危险之旅!)上击败了两名人类冠军选手,从此一战成名。
Jeopardy!(危险之旅!)的比赛以一种独特的问答形式进行,问题设置的涵盖面非常广泛,涉及到历史、文学、艺术、流行文化、科技、体育、地理、文字游戏等等各个领域。根据以答案形式提供的各种线索,参赛者必须以问题的形式做出简短正确的回答。与一般问答节目相反,《危险边缘》以答案形式提问、提问形式作答。参赛者需具备历 史、文学、政治、科学和通俗文化等知识,还得会解析隐晦含义、反讽与谜语等,而电脑并不擅长进行这类复杂思考。
需要特别提到的是,在比赛中Watson是断开网络(offline)的。与AlphaGo同李世石对战中不同,Waston只能使用保存在硬盘中的知识库基本包与扩展包作为自己的知识储备,和人类参赛选手一样。在这种情况下,沃森在前两轮中与对手打平。而在最后一集里,沃森打败了最高奖金得主布拉德·鲁特尔和连胜纪录保持者肯·詹宁斯,夺得第一名。
Waston本质上是IBM制造的电脑问答(Q&A)系统, IBM介绍时说“Waston是一个集高级自然语言处理、信息检索、知识表示、自动推理、机器学习等开放式问答技术的应用”,并且“基于为假设认知和大规模的证据搜集、分析、评价而开发的DeepQA技术”。虽然采用了深度学习中一些技术如迁移学习 (Transfer Learning)来解决一些问题,但与AlphaGo不同,它并不是完全采用深度学习技术的人工智能。它的主体思路并非深度学习,而是更接近心智社会(Society of Mind)。
在刚刚闭幕的IJCAI2016会议上,伦斯勒理工学院教授James Hendler受邀演讲详细介绍了IBM Waston的工作原理。
将沃森设想为一间环形办公室走廊,每一间办公室都有一群人做着特殊的工作,让我们从头来梳理整个运行过程。
问题输入(QUESTION IN)
问题分析 (Question Analysis)
这个问题什么意思?
我们在找什么?
还存在其他有效信息么?
问题中有没有词语提到问题中的其他词语?
在这一环节,DeepQA尝试去理解问题,搞清楚问题到底在问什么,同时做一些初步的分析来决定选择哪种方法来应对这个问题。
初步搜索 Primary Search
在数据库中能不能找到或许跟这个问题有关的文件?
找到了多少文件?
这些文件从哪里来的?
搜索结果处理并生成备选答案 Search Result Processing and Candidate Answer Generation
在这些文件中,有这个问题可能的答案么?
有多少个备选答案?
当问一个问题时,一份文档打开了。文档在办公室中不断移动时,更多信息被添加进去了。
上下文无关回答得分 Context-Independent Answer Scoring
这个选择有可能是正确的答案吗?
这个选择是正确的答案形式吗?
软滤波 Soft Filtering
有哪些选择是明显错误的?
如果是的话,能不能让它们在后面的处理过程中不占太多的时间?
每个可能的回答都被给定一个分数,给出这个证据对备选答案支持得到底有多好。
支持证据检索 Supporting Evidence Retrieval
能在数据库中找到任何能够证明某个选择答案是正确的信息吗?
对每个选择来说有多少信息在哪?
搜索结果处理和上下文无关得分 Search Result Processing and Context Dependent Scoring
选择工作作为问题回答怎么样?
现在有更多的信息,能给每个选择什么分数?
最终合并并排名 Final Merging and Ranking
还有任何能够改变分数的额外信息吗?
每个选择的总分是多少?
哪个选择分数最高?
分数第二高的选择是什么?
DeepQA也观察到了这种现象:不同的表面形式通常会被不同的证据支持,并得到完全不同但潜在互补的分数,这产生了一种方法:将答案分数在排名和信心计算之前先合并掉。
输出答案 ANSWER OUT
有用的最高分答案被返回,然后沃森尝试判断从它做的多好(或者多坏)中进行学习。
以上即为waston工作的基本原理,在后面的演讲中James Hendler教授还提到了沃森是基于“关联知识”构筑而成的,其实现过程如下。
解析问题文本
生成查询请求
搜索可能答案 (假说)
假设1-m
解析假说文本
生成查询请求
搜索证据
证据1.1-1.m
解析证据文本
证据评分
结合证据并对假设1评分
通过解读措辞含糊的问题并通过其通用知识数据库搜寻答案,沃森展示了理解自然语言的能力,而这正是计算机所需要攻克的最困难的难题之一。这似乎预示着计算机不久之后就能真正“理解”复杂信息并与人类交谈了,甚至还可能继续发展以至于在大部分人类专有领域超越人类。
沃森集成了上百种算法从不同的维度分析备选假设的证据,如类型、时间、空间、流行度、段落支持度、来源可靠度、语义相关度等。每种分析都产生一些特征或评分,反映了在相应的维度上证据对备选答案的支持程度。如果在最终系统中去掉任何单个评分器,在上千个问题的测试集上都不会造成显著的影响,实际上没有一个评分器产生的影响超过1%。但组合起来,沃森在回答40%-70%的问题时,达到了92%的平均精度。
James Hendler教授在演讲中还提到最近几个重要技术壁垒被突破,像深度学习(机器学习)、认知计算、语义网络(知识图谱)方面都有又一次为AI带来高的关注度。他另外还提到,Waston系统目前已经开始进军医疗行业,结合之前提到的AlphaGo也有意在这一行业发光发热,我们会看到这两者一较高下么?请拭目以待。
via James Hendler
PS : 本文由雷锋网独家编译,未经许可拒绝转载!