毫无疑问,马蜂窝刚刚度过一个黑色周末。
10月20号微信公众号“小声比比”发表了一篇名为《独家|估值175亿的旅游独角兽,是一座僵尸和水军构成的鬼城》的文章,直指旅游网站马蜂窝评论抓取抄袭其他旅游平台,大量内容和抽奖涉嫌造假。
作者宛如手提一把98K的刚枪王,一枪一靶,甩出了马蜂窝与点评,携程、艺龙、美团、Agoda、Yelp等网站评论对比图,操作堪称一流。
这篇文章以朋友圈为扩散中心,迅速开启病毒式传播,短时间内达到10W+阅读量。马蜂窝随后在10月22日也就是今天一早,发出了一则声明称,该自媒体文章所述的马蜂窝用户数量与事实和第三方机构数据都严重不符,并存在误导倾向,已被查证为有组织攻击行为,将采取法律手段维护自身权益。
马蜂窝与爆料自媒体的口水战还在继续,围观群众也保持着吃瓜激情,支持者有,吐槽者有,抖机灵甩段子的也有。
比如知乎用户罗一觉提出了一个有意思的细节,马蜂窝的这些假评论,主要是在工作日、工作时间发出来的。而不是和别的正常网站一样,集中在饭点、休息日。
这说明:
马蜂窝在抄袭的时候,没有考虑到正常用户的行为方式。如果程序员稍微动一下脑筋,把抄好的评论在饭点发出去,那就没这么大的问题。
这些评论很可能是员工在工作时间一个一个抄过来的,而不是有什么自动化的软件在抄袭。因为程序应该是不需要休息的。而且从数据来看,一万五千活跃用户,有三四年的时间,完全是一个人工团队可以进行的工作量。所以,在马蜂窝就有一个团队,十来上百人,每天的任务就是把别家的评论抄到自己家的网站上。我无法想象这种工作的枯燥程度,简直就是《城市之光》里的工人。他们可能拿着最低工资,但他们的产出,却是马蜂窝估值100亿+人民币的核心竞争力。
另一位知乎网友Windfury则聊到一些技术问题,
马蜂窝上的攻略雷同的太多了,就像搜索引擎搜编程问题一样,结果大都是机器人的互相拷贝,一个后果是错误的引导被复制来复制去。
马蜂窝的问题对用户来说除了相似内容太多,还有一个时效性问题,比如说很多景区当前在修路或者现在那个省份有票价优惠,这对游客来说其实是很重要的信息,缺失了会导致行程出现严重问题,而这个问题在马蜂窝现在这种社区模式下无法解决。
还有网友则认为爆料方是有备而来,
能把马蜂窝,点评,携程、艺龙、美团、Agoda、Yelp这些网站全部爬一遍,他背后的团队技术实力肯定很强悍,肯定也花费了不少时间和金钱做这件事。不过我很好奇作者花费了这么多资源做这件事,仅仅是为了打假?我觉得原因没那么简单。
要么作者夸大了他的爬虫数据量,要么作者也准备开一家马蜂窝,手动狗头。
也有网友认为这一连串都是套路,熟悉的配方多家使用,
没有内容来源→爬虫扒其他网站→数据量暴增→报表好看→估值暴增→风投(人傻钱多)源源不断→IPO→套现
知乎网友 Lincoin 认为机器人创造内容,乃是业内的常见操作,没什么新鲜的。
淘宝刚上线的时候,缺少种子用户(小白鼠),马老板带着员工自己买自家商品写评论打分,创业初期都是这么过来的。但是「抄袭」的这么明显,还当自家资产来卖,这确实就有点不厚道了。
微博网友:
马蜂窝:我们不生产内容,我们只是内容的搬运工;
从蚂蜂窝改到马蜂窝,怪不得会捅马蜂窝……
当然还有一些网友情不自禁甩出了诸多表情包
……
关于数据挖掘这事儿
事实上,数据挖掘这件事儿一直都存有争议,一方面平台认为利用技术爬取数据可以完善功能提高用户使用感,另一方面却被质疑爬取的数据是否侵犯作者权益。
也有人好奇报道中称马蜂窝2100万条“真实点评”中,有1800万条都是通过机器人从竞品网站抄袭过来的,这是如何做到的。
来自邦盛科技机器防御专家告诉雷锋网宅客频道,目前平台均是通过网络机器人技术从其他网站爬取信息,并抄袭到自己的平台。
网络机器人,是一种按照一定的规则,自动地抓取网络信息的程序或者脚本。当前大部分的网络机器人是通过直接发起http请求的方式获取网页资源,无js引擎,会进行一定的伪装,并使用动态IP来躲避反爬虫措施。随着网站防护能力的不断提升,网络爬虫会逐渐向浏览器内核型进化,从而具备执行js的能力,并进一步的拟人化,增加被识别的难度。
总之,机器人创造内容已经不新鲜了,以马蜂窝风波中的刷评为例,就是通过爬取竞品的商家评论数据,以预定义的一些随机替换规则(比如称谓,地点,时间等等)构造新的评论,最后利用马蜂窝平台设立的大批机器人账号,发布在自己平台的对应商家评论里。
当然,类似马蜂窝去抓取其他网络预订同行的内容数据这种情况在业内很是常见,随着互联网的快速发展,网络机器人也越来越普遍。
根据之前国外网络安全公司的研究报告,50%左右的网络流量来自网络机器人,遍布各类网站,包括出行、社交、OTA、电商、招聘、银行、政府等。例如出行类中的12306票务信息被各类抢票软件疯狂地爬取,高峰时刻每天的访问量达到千亿次。在社交类中,通过网络爬虫技术可以指挥一帮网络机器人关注某人的微博、公众号等,进行点赞、关注或者留言,制造大量的僵尸粉。
(因此诸多吃瓜群众表示:知乎、微博大V软文赞评都是刷的,大家彼此彼此。)
在问到最关键的被爬取内容网站是否能发觉并采取反爬手段时,专家告诉我们,针对爬虫,常规的反爬虫手段包括验证码、HTTP Header校验、代理IP识别等。
随着爬虫技术的演进,常规的反爬虫手段已经无法有效阻止爬虫的访问。近年来通过多维度、多层次的检测,并辅以后端大数据分析来识别网络机器人逐渐兴起并成为主流。
利用设备指纹技术从设备维度定位网络机器人,人机识别技术从操作行为判别机器人点击和自动化点击,而后端大数据实时分析技术可根据长周期数据进行复杂规则决策。综合以上手段,可有效侦测爬虫行为,保护网站的信息资产不被爬取和泄露。
手段想有都可以有,但平台用不用就不知道了。
可惜,对于深陷舆论中心的马蜂窝来说,黑色周末依然在延续。
参考来源:知乎
雷锋网宅客频道(微信公众号:letshome),专注先锋科技,讲述黑客背后的故事,欢迎关注雷锋网宅客频道。