在过去的十年中,计算机科学家设法利用大量的互联网用户来解决那些通常一台计算机无法破解的难题。比如检测一副图片中是否有树出现、对网站评级、检查电话号码等。
机器学习社区很早便开始致力于“众包”( crowdsourcing )这样快速而廉价的途径,从而获取大量的带标签数据。在有监督学习中,含类别标签的数据可以称得上是机器学习的老师,它可以用于训练机器学习系统,实现诸如识别语音及图片分类等功能。比如将带有猫的图片与“猫咪”这个词语捆绑起来。
通常,传递这种带标签数据是通过众包雇员添加的。是否存在一种使众包发挥更大作用的方式呢?
在今年12月5日,微软公司将在巴塞罗那举办的 NIPS(Conference on Neural Information Processing Systems,神经计算领域顶会)上通过一个演示报告,来阐述一种新型的超越数据收集的众包方法。这一演示将解释微软苦心钻研的关于“什么才是众包”、“如何指派众包成员”等问题,并展示微软公司使用众包的丰富经验。
三大众包创新,使工作内容超越了单纯的收集数据:
管理众包雇员的机制中可增强机器学习模型。比如,通过提供对象相似度信息为众包产生核心。或在计算机视觉、语音识别领域中,增强更大更复杂的机器学习模型。
应用混合智能系统。这些“人工介入”的 AI 系统,使人类和机器相互弥补,实现了 1+1>2 的效果。尽管关于混合智能系统的研究是很新颖的,但是已经有很多引人注目的实例暗示着众包的应用潜力。比如实时请求式的关闭日常对话的字幕,或者人力写作和编辑。
更广泛的在线研究人类行为。众包受到了社会科学家的热烈追捧。尤其是那些习惯使用亚马逊土耳其机器人平台的科学家。众包将帮助他们更快速的、更便捷的为“行为实验”雇佣大量的实验对象。这样的实验同样对计算机科学家有利。在社会计算兴起的时代,计算机科学家将不能再忽略人类行为的影响,例如计算机科学家研究电脑系统的性能时,需要设计良性算法和系统,从而更确切地模拟人类行为。
最新关于质量和数量的研究,已经打开了众包的黑盒子,研究表明众包人群并不仅仅是孤立的承包商,而是拥有着丰富社交结构的网络。同时,实验还发现使用良性的财政奖励(比如根据绩效进行支付)和内在激励(激起好奇心)都会提高众包人群的工作质量。
这项研究教会我们如何更加有效的和人群打交道:相互尊重,有求必应,逻辑清晰。
众包对机器学习和人工智能系统有着潜在的深远影响。但是为了激发其潜能,我们需要更多有创造的思想者来探索全新的使用方法。
微软研发部主管:Jennifer Wortman Vaughan 摄影: John Brecher
采访专栏
Jenn,您是理论家吗?您的理论是未公开的吗?
Jennifer Wortman Vaughan:可能因为我的学习理论和算法经济学相对还是比较有意义,所以我在 NIPS 社区中比较有知名度。但是这不能说是个理论指导。事实上,这种理论几乎没有涉及数学推导。但是如果你对我的理论很感兴趣,比如理论中人脑计算的数学基础,这些理论都可以为实验性和经验性研究提供帮助。可以去看看我最近的报告。(传送门在此:http://www.jennwv.com/papers/mfsc_ccc.pdf)
您的理论主要是针对什么人群?
Jennifer Wortman Vaughan:这种理论是开放的,任何人想要学习众包的尖端研究都可以来下载相关论文和报告。只要你想掌握众包或者特殊机器学习技巧,你就可以精通这些。任何有好奇心的人,我都非常欢迎来学习这些知识。
可以在线听您的报告吗?
Jennifer Wortman Vaughan:当然!如果我在报告厅,我会把更多细节报告展示出来,比如会议安排和更多资源。我相信我的理论同时也会被报道,如果我有更新发现,我将会第一时间展示出来。
via microsoft