雷锋网 AI 科技评论按:搜索技术从一开始的桌面文件搜索、互联网搜索,发展至今日流行的程序内部搜索(In-app search),先后攻克了不同的技术难点,面对如今来势汹汹的 AI 时代,搜索技术又该何去何从呢?
作为 2018TOP100Summit 案例分享嘉宾之一,Dropbox 技术主管叶旭刚将在本文中分享搜索技术的发展的来龙去脉,以及当下该领域所面临的机会与挑战。
叶旭刚,机器学习和数据科学领域资深专业人士。现任美国云服务科技公司 Dropbox 的搜索团队的技术主管, 负责开发新一代的云工作空间的智能搜索推荐引擎。曾在美国最大房地产搜索引擎 Zillow 任主任应用科学家, 从事房地产垂直领域的搜索以及自然语言理解的研发。曾在美国苹果公司任主任数据科学家, 从事客服搜索的研发。并曾在美国微软公司任高级应用科学家, 从事网页搜索、地区搜索、企业搜索的研发。拥有约翰霍普金斯大学应用数学及统计博士, 并曾在美国国立健康研究所从事生物信息统计博士后研究。曾获约翰霍普金斯大学博士全额研究奖, 美国国立健康研究所优秀人才奖, 海军研究部研究专款等。曾在运筹统计、生物信息、大数据及机器学习方面的期刊及会议发表多篇第一作者文章。在顶级会议 (NIPS, INFORMS, SIAM, ICML, ISMB, CIKM) 做过报告。
搜索技术的「前生今世」
搜索领域的发展最早可追溯至微软操作系统的基础检索功能——桌面文件搜索系统(index),后来随着互联网的普及,用户搜索范围不再局限于单机系统,才诞生了互联网搜索系统。
雅虎是最早投入互联网搜索系统开发的公司,然而一直未能从门户网站的商业逻辑中跳脱出来,导致错过了搜索引擎作为新型商业模式的风口,因而被同期的小公司赶超。这种新型商业模式后来被谷歌发扬光大,逐渐发展成今日的体量。
谷歌时代最重要的技术里程碑,是强调了网页的重要性。谷歌为此进行了大量的互联网资源整合工作,只要出现一个站点/网页,谷歌都会统一进行 Index 标注,日积月累下成就了庞大的 Index 系统。Index 系统有效解决了雅虎时代遗留下的问题,使用户的查询输入同时映射至多个结果,并根据重要性对搜索结果进行排序,从而保证呈现在用户面前的都是最优的搜索结果。
为此,谷歌需要付出高昂的基础设施维护代价。据了解,单 2016 年,谷歌系统便已累积多达 10 万亿个网页 index 标注,耗费存储空间高达 100 PB(1 PB = 1024 TB)。
最近这几年,谷歌的搜索模型逐渐从静态封闭向开放动态发展,从单纯的「搜索-返回」变为通过各种途径揣测用户意图的智能化搜索服务。换句话说,谷歌系统时刻关注着用户的搜索反馈,这些信息将被完整记录下来,然后经过整理后更新至模型里头,最后通过对比检验模型的搜索效果。
「小而精」的 In-app search 时代
这一阶段搜索技术在的特点是: Index 体量变得越来越大,Index 种类变得越来越丰富,同一时间模型理解用户意图(语境)的能力也在不断地提高。
与此同时,搜索技术也迎来了新挑战:
互联网资源底层结构变得多元化,用户的搜索输入不再局限于文字,当中还包括图像、语音、视频等。
一旦资源库的体量超出系统可负荷的临界点,后期可能导致资源管理上的问题。
对应的解决方案,是如雨后春笋般冒出的垂直领域搜索引擎。
跟过去不同的是,这些平台未必在一开始就提供检索服务,而是在商业模式取得巨大成功后,沉淀的用户反哺为平台带来了大量内容,当内容丰富到一定程度时,自然而然形成了特定领域的搜索引擎,业界将之称作 In-app search——用户先登陆某个具体 app 再进行特定领域搜索的行为。
当中最具有代表性的 In-app search 平台是 Facebook,Facebook 在社交领域的积淀,使其在做社交搜索方面有着得天独厚的优势。有人曾经断言,In-app search 极有可能在未来取代谷歌、Bing 等一般性搜索成为主流搜索工具。
此外,随着「机器人时代」的来临,搜索趋势也将从单一输入理解变成互动式交流,由文字过渡至语音、图像乃至视频。为了更好地理解用户的搜索意图,这些机器人将拥有强大的自然语言理解能力,可以根据用户的搜索需求将之导引至某个专属领域 app。
目前看来,拥有庞大的开发者生态以及企业基础数据的苹果 app store 和 AWS 云平台,极有可能超越谷歌,成为 In-app search 时代的弄潮儿。
搜索领域现阶段面临的难点——「内容理解」
无论是一般性检索还是垂直领域检索,在「机器人时代」都不可避免地要面临「内容理解」的难题。
为了让搜索引擎很好地理解人类意图,我们必须保证引擎底层的知识结构和人类的知识结构保持一致,自然语言理解在这过程中便扮演了重要的角色。换句话说,自然语言理解是搜索引擎的索引和用户输入之间的桥梁,一旦缺少这个桥梁,我们的检索技术相当于倒退至几十年前,基本没有进步。
然而「内容理解」面对的内容不仅仅是常见的网页,还包括了其他的文本结构如工作文档(可进一步细分为 word 文档、pdf 文档等)、图像、视频等,这就超出了自然语言理解的范畴,必须依赖诸如卷积神经网络、运动监测、物体检测等一系列特定技术才能解决信息提取问题。这也推动了目前深度学习领域较热门的 embedding 工作,试图将字面上的 token 映射至数字空间上。只有将不同文本结构的信息提取出来,我们才能将对象映射至文本空间上,接着通过文本技术来解决搜索的问题。
总的来说,「内容理解」的目的是要让搜索引擎找到一种近似人脑对自然观察理解的方式,然而这块目前还处于比较初级的阶段,目前引擎的信息提取效果大约等同于几岁小孩,有的时候甚至还不如一只动物。
这是搜索技术的发展当下所面临的瓶颈,需要更多的业界人士参与进来一起努力攻克。
附:叶旭刚老师的 TOP100Summit 案例分享详情
由 msup 主办的技术界一年一度的 TOP100Summit 上,叶旭刚老师将与大家分享他在房地产搜索领域关于自动补全与自动建议技术的建模实现(内容链接页:http://www.top100summit.com/think/13504)。作为搜索的辅助手段,智能的自动补全和自动建议可以帮助用户快速表达搜索意图,同时避免查询词重复进入深层 index 造成系统延迟。
为了实现这一目的,需要构建一套该垂直领域的知识图谱、词汇表、字典树数据结构,以及相关性概率的数学模型。叶旭刚老师将在报告中采用基于贝叶斯原则和条件独立及非条件独立的简化假设把相关性概率分解成区域化和个性化两个部分。在具体实现时采用两阶段贪婪排序。也就是先用区域化的相关性概率来找到一个搜索结果列,再对这个列计算个性化打分从新排序。此外,叶旭刚老师还会在报告中介绍评价系统表现的模型,以及对应的评价指标。
通过本次分享,学员可以了解自动补全和自动建议的一个全貌和具体在一个垂直领域是如何建模、设计和实现的。学员可以把该模型和技术移植到他们自己的搜索领域。比如说常见的场景是开发商品搜索或专业知识搜索的移动应用。
如果你对叶旭刚老师的主题分享感兴趣,也想通过活动了解更多其他领域的技术创新/研发管理实践,欢迎大家通过活动页面购买会议门票:http://www.top100summit.com/apply,会议提供各种购票组合,大家可以实际需进行购买。
雷锋网 AI 科技评论雷锋网