雷锋网 AI 科技评论按:本周末,每年一度的数据挖掘的顶级会议ACM SIGKDD在加拿大新斯科舍省省会哈利法克斯拉开了序幕,整个会议13号到17号,持续5天。在异国他乡的顶尖国际会议上,雷锋网AI科技评论发现,不仅在收录论文列表里频频出现中国人的名字,甚至连赞助商都有一系列的中国公司位列前排,其中“滴滴出行”则以钻石赞助商的身份排在首要位置。这就引起了我们对滴滴在此次会议中活动的特别注意。
通过查找,雷锋网发现滴滴在这次大会中共有4个活动:
14日下午13:30-14:20,在“城市计算”研讨会中,滴滴副总裁、滴滴出行研究院副院长叶杰平将做一个关于“滴滴出行中的大数据”的受邀报告。
14日晚上19:00-22:00,论文报告“A Taxi Order Dispatch Model based On Combinatorial Optimization”。
15日中午12:30-13:30,滴滴在会展展位将会开启一场精彩对话。
15日下午13:30-17:00,滴滴副总裁叶杰平也将在中国专场做一次报告。
目前滴滴平台拥有4亿用户,日订单量超过2000万。在中国滴滴现在每天新增数据量有70TB+,每日处理数据4500TB,每日路径规划超200亿次。所以滴滴平台的大数据是毋庸置疑。滴滴如何把实时的交通信息整合在一块,通过背后庞大复杂的算法和计算平台做到实时、智能的决策,这将是非常值得关注的。通过叶杰平在之前的一些演讲,我们可以发现人工智能、机器学习算法在滴滴出行的大数据处理中占据着极为重要的地位。据了解,最近滴滴更新了一版深度学习,其效果如何或许将在这次会议中对外揭晓。
作为其研究成果的论文报告也是非常值得关注的。在KDD官网上这篇论文《A Taxi Order Dispatch Model based On Combinatorial Optimization》的摘要如下:
出租车的应用程序在世界各地非常受欢迎,因为它们为用户提供了快速的响应时间和便利性。出租车预订应用程序的关键组成部分是调度系统,该系统旨在提供驾驶员和车手之间的最佳匹配。传统的调度系统依次向乘客派出出租车,其目的是最大化每个独立订单的司机接受率。但这种调度系统不能保证全局的成功率,这就会降低用户在使用应用程序时的体验。在本文中,我们提出了一个新的调度系统来优化多个订单下的出租车调度。这个系统旨在最大化全局调度的成功率,从而优化整体的交通效率,给用户带来更好的体验。为了进一步提升用户体验,我们还提出了一种在开启出租车预约APP时预测用户目的地的方法。这种方法使用了贝叶斯结构来根据他/她的旅行历史来对用户的目的地的分布进行建模。
我们使用A/B测试比较了我们新的出租车调度方法与从北京收集的数据建立的最先进的模型。实验结果表明,该方法在全局成功率(从80%增加到84%)方面优于其他最先进的模型。此外我们还对其他指标(如用户的等待时间和接收距离)进行了显著改善。我们将表明,我们的目标预测算法优于基于KNN方法的基准模型,与精度排名前三的模型相比,我们的精度提升了89% - 93%。这种新的出租车调度和目的地预测算法已经部署在我们的在线系统中,每天为数千万用户服务。
论文下载:A Taxi Order Dispatch Model based On Combinatorial Optimization
此外,还有一篇入选论文《The Simpler The Better: A Unified Approach to Predicting Original Taxi Demands based on LargeScale Online Platforms》,虽然不在滴滴的活动列表中,但有滴滴副总裁叶杰平和Jie Wang的参与研究(其他研究者还有北航的Yongxin Tong, 第四范式的陈雨强,苏黎世联邦理工的Zimu Zhou,香港科大的陈雷和杨强)。摘要如下:
Author(s): Yongxin Tong (Beihang University);Yuqiang Chen (4Paradigm Inc.);Zimu Zhou (ETH Zurich);Lei Chen (Hong Kong University of Science and Technology);Jie Wang (Didi Research);Qiang Yang (Hong Kong University of Science and Technology);Jieping Ye (Didi Research)
出租车应用程序现在越来越受欢迎,因为它们能有效地为有需要的乘客派遣空闲的出租车。为了更精确地平衡出租车的供应和需求,在线出租车平台必须预测单元出租车需求(UOTD),也即单位时间(例如每小时)、单位面积(例如每POI)发起的出租车需求数。UOTD的预测对于大型在线出租车平台来说是没有意义的,因为对它们来说精确性和灵活性是至关重要的。复杂的非线性模型(如GBRT和深度学习)通常是精确的,但在情景变化(例如新的规定导致的额外限制)后就需要大量的工作来重新设计模型了。为了精确地预测UOTD,同时保持灵活的情景变化,我们提出了LinUOTD,这是一个具有超过200万维特征的统一线性回归模型。这个简单的模型结构消除了模型重设计的需要,而且高维特征有助于精确地预测UOTD。此外,我们设计了一系列优化技术用于高效的模型训练和更新。我们使用了两个来自在线出租车平台的大型数据集进行的评估证明了LinUOTD在精确性方面优于流行的非线性模型。我们认为我们在UOTD预测中使用地高维特征的简单的线性模型可以作为一个试点研究,它可以应用到深入了解其他工业大规模时空预测的问题当中。
2015年5月,滴滴正式成立机器学习研究院,将机器学习大规模应用在出行领域;2016年4月,滴滴机器学习研究院升级为滴滴研究院, 目前其研究项目包括ETA、动态调价、智能分单、拼车、供需预测、运力调度、热力图等核心项目,研究方向则包括机器学习、计算机视觉、人工智能、数据挖掘、最优化理论、分布式计算等。在今年3月滴滴出行又宣布在美国加州硅谷成立滴滴美国研究院,把挖人的触角直接伸到了美国硅谷。从2012年的微不足道,短短五年已至如此,其成长不可谓不迅猛。
SIGKDD 2017大会将有更多精彩呈现,雷锋网AI科技评论将从一线带来精彩报道及内容。
相关文章: