雷锋网 AI 科技评论消息,数据挖掘和机器学习应用顶级会议之一的 WSDM 2018(ACM International Conference on Web Search and Data Mining)已于美国时间 2 月 6 日在洛杉矶开幕。
WSDM 可以读作「wisdom」,会议的关注点为搜索、数据检索、数据挖掘、算法设计、算法分析、经济影响方面的实际且严谨的研究,以及对准确率和运行速度的深入实验探究。今年已经是 WSDM 的第十一届会议。
根据官网介绍,本届会议共收到论文投稿 514 篇,接受论文 84 篇,接受率约 16%。以下四篇论文已得到最佳论文奖提名,并将于 2 月 8 日进行论文演讲。
《A Path-constrained Framework for Discriminating Substitutable and Complementary Products in Ecommerce》(一种用于在电子商务中区别可替代和互补的商品的路径限制框架)
《Unsubscription: A Simple Way to Ease Overload in Email》(取消订阅:一种缓解电子邮件过载的简单方法)
《Index Compression Using Byte-Aligned ANS Coding and Two-Dimensional Contexts》(通过字节对齐 ANS 编码和二维内容方法压缩索引)
《Offline A/B testing for recommender systems》(推荐系统的离线A/B对比)
本届 WSDM 邀请了美国国家工程院院士、微软全球执行副总裁、ACM/IEEE Fellow 沈向洋,图灵奖获得者、UCLA 教授、贝叶斯之父 Judea Pearl,美国伊利诺伊大学香槟分校计算机系教授、ACM/IEEE Fellow 韩家炜,今日头条人工智能实验室主任、IEEE Fellow、ACM 杰出科学家李航等知名专家进行主题演讲。
沈向洋的演讲题目为《From Search to Research》(从搜索到探索),随后沈向洋也单独发布了一篇文章介绍了自己演讲的主要内容。雷锋网 AI 科技评论把文章内容整理如下。
每天,我们每个人都会用搜索引擎查找信息。你现在看到的这篇文章说不定就是通过搜索找到的。
搜索也是我生活的重要一部分,这一持续时间超过 10 年。2007 年的时候,我离开了位于北京的微软亚洲研究院的计算机视觉研究员职位,加入了在美国的必应(Bing)团队。 当时这个不大团队的领导者是Satya Nadella(微软现任 CEO),我们两人都对学习搜索广告业务很有兴趣。最重要的是,我们想要创造一种不同的搜索体验,让它能给用户带来更多帮助。
必应的持续增长让我很兴奋,也让我倍受鼓舞。全美国的个人电脑所发出的搜索,有 33% 是必应处理的;必应在全球的使用率也在持续增长,比如在英国的市场占有率也已经达到 25%。必应不仅集成了 Reddit 这样的外部合作伙伴的数据,它也支持了微软学术搜索,让学术论文搜索变得更全面。
我们目前完成的成果都棒极了,那么接下来呢?我觉得我们应该从搜索(search)走向研究探索(research)。
在今天的 WSDM 的演讲中,我就介绍了如果要创造下一代的智能搜索,我们还需要走多远。
传统的搜索依靠的是关键词以及查询和网址间的匹配来找到答案。当今顶级的搜索引擎在网页搜索方面已经没有什么区别,但更好的语音识别、更好的个人助理互动以及新的移动互联网使用体验都已经改变了人们向搜索引擎提问的方式。如今,问题都是基于自然语言的,而且也更长,这也让准确的回答变得更重要。那么要怎么做呢?
随着人工智能方面出现机器阅读理解之类的技术进步,我们正在努力给必应设计一个探索工具,可以在对话中得到直接的答案,并且足够清晰、具有不同的视角。
直接的答案。随着更好的机器阅读理解技术的出现,我们提供更直接的答案的能力也大幅提高。仅仅几周之前,我们微软团队在斯坦福大学 SQuAD 文本理解挑战赛中取得了超出人类的成绩。机器阅读理解可以匹配询问的句子和文章的语意,从而帮我们从网页文章中提取出最佳答案。我们也提供了结合上下文的答案,它可以把机器学习的结果反向推理成用户会觉得有联系的东西。比如,当你在必应搜索「伊拉克有多大」的时候,你不仅会得到「169,235 平方英里」这样的结果,你还会看到「和加利福尼亚州的大小差不多」。
不同的视角。假如不考虑可能出现的多种意见的话,给出答案就变成很简单的一件事了。那如果你没有接触到各种不同的视角,又要如何知道什么才是正确答案呢?比如说,搜索「吃紫甘蓝有什么好处吗」这样提问得比较积极(positive)的问题,就很有可能搜索到紫甘蓝的好处;然后当你搜索一个从消极角度(negative)提问的问题的时候,比如「热瑜伽有什么不好之处吗」,得到的结果同样也很有可能不会提及热瑜伽的诸多好处。
为了解决这个问题,我们给必应加入了「多视角回答」( Multi-Perspective Answers )功能。实际上我们去年 12 月就上线了这个功能。当用户向必应问一个问题,而这个问题有来自可靠消息源的多种有效视角的回答的话,用户就会得到两个答案,对这同一个问题给出两个不同的回应。当机器阅读理解发现多个信誉不错的信源提供的答案类似或者带有不同的属性的时候,必应也会让用户知道,以此提高答案的权威性。
在搜索的进化之路中,对话是一个重要部分。我们的目标是理解用户的意图,这样每次搜索都可以帮助你快速完成任务。我们创造了一种新的交互式的搜索方法,它可以基于你的前一个搜索结果找到最佳答案。现在,如果你还需要考虑如何问一个对的问题的话,必应可以帮你构建清晰的问题以便优化你的搜索过程,一次就带给你最好的答案。
比如下面这个例子里,在必应上搜索「头疼」,页面上会出现额外的选项帮助用户缩小查询范围。如果点击的是「头疼的类型」,就会把用户指向另一些具体的选项,直到用户找到需要找的东西。
另一个我们在研究的新领域是「交谈性语境」,这对人机对话来说非常关键。我们的模型用了带有语境嵌入的 seq2seq,可以达到更好的对话查询理解。在系统的后端,问题本身和对话语境都会作为输入。然后多层 LSTM 网络和注意力机制就会协助重新生成一个问句,最终得到答案。比如下面这样:
简单总结的话,这是一种非常重要的能力,它可以让人类和机器之间的对话更自然。在未来几周内我们将和 Cortana 一起发布这个功能。
我们非常看好对话式 AI 的未来。Siri、Alexa 和 Cortana 这样的个人助理都已经使用了各种提高智商的方法来帮助用户解决启发型和反馈型的请求。我们还有一个最新的社交机器人创新,它依靠情商来和人类构建连接。微软在 2014 年以「小冰」踏上了社交机器人之旅,而它也成为了中国最受欢迎的聊天机器人。现在我们在日本、美国、印度和印度尼西亚都有社交机器人。在和这些社交机器人聊天当中,我们可能会发现智慧真的隐藏在对话之中。
我理解这篇文章的有些读者可能并没有多喜欢必应,或者可能有一阵子没有用过必应了。也许你现在可以试试必应。我们为直接的回答、多视角、人机对话这些目标想到的新点子、开发的新功能都给搜索体验带来了更多的智能,我们正在改变你每天都要做的「搜索」的本质。
(完)
via Linkedin,雷锋网 AI 科技评论编译
相关文章: