从百度的“百万年薪招聘首席地图采集师”,到高德的“道路数据绕地球197圈”,国内图商进行地图采集的门槛正变得越来越高。如果加上车用高精地图的采集,能跨进这个门槛的企业基本只剩BAT三家。
在科技外表下,传统数据采集作为制作地图的基础工作,采取的的方式是“扫街”,也就是员工不断外出采集数据。地图公司的能力区别,主要在于多久“扫一次街”。间隔时间越短,扫得越细致,采集来的数据就越有效。行业之间比的其实是谁家的采集员和采集车更多。
这也是过去人们印象中地图公司的工作方式:谁的用户最多,谁提供的实时路况信息就最准。有人提出,如果考虑到采集员们的辛勤工作,传统地图公司是一个“劳动密集型”企业。谁最先改变这种现状,谁也许就能在地图市场的”下半场“夺得机会。
根据此前雷锋网的了解,国内市场从用户量上讲,高德和百度跑在最前面,腾讯处于紧追猛赶的阶段。2016年6月,马化腾规划了腾讯未来关注的四大基础领域,LBS地理位置服务是其中之一(其他三个是云服务、安全和支付)。
12月下旬,百度地图不再强调自己是O2O平台,而是立刻将人工智能和虚拟现实与地图产品绑定在一起。
而据知情人士向雷锋网透露,今年马云也曾经提出对阿里系旗下高德地图的长期要求,用户最终需要一张总是提供最全面、最及时信息的地图,即一张活地图。唤醒一层层数据,先解决了数据堵的问题,才能解决路堵、出行难的社会民生问题。
过去地图导航软件提供的实时路况信息,主要来自安装了GPS的出租车和物流车少量数据;现在,实时路况信息主要来自于正在使用导航功能的海量用户。当你走进一家互联网地图公司,就会发现顶尖的计算机科学家们,已经把每个用户都当成采集员,正通过用户贡献的大规模UGC数据来做下一代的地图。
过去,地图公司要过很久才能知道某条路上的某个加油站已经关闭了;现在,地图公司很快就能发现,在这个加油站停留的用户(GPS定位点)突然大幅减少,因此这个POI(Point of Interest,地理信息点)变成重点关注对象,然后立刻派人核查实际情况,并在地图上提醒用户。
海量用户数据和算法即将成为地图行业的竞争焦点。地图公司正在变成“智力密集”型企业,最终比拼的仍然是谁家的“采集员”多,只不过“采集员”变成了各家企业服务的用户和参与决策的大数据体系。
谁的活跃用户多,谁就能更快地发现变化,所能提供的数据服务就越准,用的人就越多;谁的活跃用户少,谁发现变化的速度就慢,所能提供的数据服务准确度就越差,用的人就越少。
于是地图公司的分水岭渐渐出现:那些核心数据购自传统图商的地图公司以及用户规模较小的地图公司,在数据的“鲜度”和“准度”上,将会越来越落后于自采能力和大数据能力领先的公司。马太效应再一次显示其威力。
意料之外,又在情理之中。雷锋网认为,到头来能玩得动地图行业的公司,还是BAT三家。这也跟行业特点有关系,地图所承载的LBS位置服务能力,取决于大生态。一方面,传统的纯人工采集做地图的方式已经落伍;另一方面,只靠地图公司自己的判断已经不够,多元的大数据才是竞争的关键。
关于多元大数据,高德地图的一位技术副总裁在采访中,演示了如何利用淘宝运单数据判断地理信息变化:寄往某个公司的快递,以前都是发往A地址,但从一个时间点开始不断发往B地址,说明这个公司很可能搬家了。以此为例,地图对信息点的变化就能做到及时准确地反馈。
阿里系的电商运单数据无疑是最大最丰富的,马云的底气也来自是阿里云的大数据,而这也是生态大数据对地图产品改进的冰山一角。
这样的例子数不胜数。而多元大数据的重头的部分,还包括第三方数据的整合,比如开发者(BAT都提供位置服务开放平台),政府交警部门,122报警平台的以及汽车公司等等。
某种程度上说,地图是由一层层数据形成的金字塔,自己的数据决定了地基有多大,第三方的数据决定了金字塔能盖多少层,盖多高。
以高德为例,这家出身传统图商的此前也已经多次强调要做“活地图”。尽管宣称“3年内不赚钱”,只专注基础技术,但也许是对人力成本的考虑,也许是对“变态级“的准确有特殊的追求,目前高德已经实现了采集数据完全在线化,包括2900万的用户也成为数据采集的一部分,来自用户的交通事件上报,甚至占了数据量的85%。
多元大数据甚至可以延伸到新闻挖掘上,通过挖掘全网的媒体报道,可以找出哪里有新开通(或关闭)的道路,然后结合用户数据,就可以对道路的变化给予更快的响应速度。
互联网数据投射到物理世界,用户调取地图的场景越来越高,这让数据采集的要求从过去的“准确”升级到“及时”,甚至是“0秒误差”,也就是所说的“活地图”。怎样在数据采集和处理这个新战场拔得头筹,是对BAT三家从”劳动密集企业“转型”智力密集企业“速度的考验。