本文作者:李勤,雷锋网宅客频道。
你听过黑话吗?
有!
天龙盖地虎
宝塔镇河妖
不不不,这句黑话已经OUT很久了。
----以下是一组分割线,上下没有关联----
今天(7月26日),蓝莲花(Blue-Lotus)战队组建人之一的清华教授段海新介绍了一些网络黑产的黑话更让人大开眼界(蓝莲花有多牛,你可以搜索一下)。
下面进入自我测试时间,如果这些黑话你都能看懂,也许你是黑产研究学八级,要么就是经历很丰富:
菠菜
平马二中一
丁香五月天
咕噜咕噜出肉
段海新腼腆地介绍了一下第一个词,“菠菜”就是“博彩”的意思,后面三个他居然没解释。
好奇的雷锋网随便搜索了其中一个关键词,显示出如下的搜索结果,吓得我赶紧捂上了眼睛:
装作看不懂的样子,继续听段教授讲故事。
网络黑产,无奇不有,黄赌毒尤甚。
这些黄赌毒网站为了在搜索界面抢占更有利的位置,往往会对一些权重较高的网站进行劫持,比如以edu.cn或gov.cn结尾的网站。
你只是想打开一个高校的官网或一个政府网站,一不小心就进入了不可言说的世界。
你只能感叹一句:黑产推广真是丧心病狂。
然而,这并不算什么。黄赌毒和诈骗类网站为了推广自己,还会借助一种技术:蜘蛛池。
蜘蛛池就是一堆由垃圾域名组成的站群,在每个站点下都生成海量页面(抓一堆文本内容相互组合),页面模板与正常网页没多大区别。给那些未收录的页面,在短时间内提供大量的真实的外链,入口曝光多了,被抓取几率就大,收录率自然也就上去了,又因为是外链,所以在排名上也有一定的正向加分。
如果你再稍微了解一点搜索技术,说白了,就是人为制造了一张不断变大的网,把蜘蛛困在里面,让它不断的爬行网内的页面。
总而言之,就是网络黑产不断地用各种手段推广自己,争夺注意力。
为了打掉黑产网站,就要研究黑产网站的 SEO!也因此,段海新发现了伴随黑产网站出现的是“黑产词”:这些网站总有一些关键词像“标签”一样地贴在自己身上。
正经的说法是:
“黑产词”是伴随黑产出现的产品同义词及违法产品本身的关键词的统称。非法商贩和买家通过协定新的词汇表示一种产品,以此躲避监管。
这些隐蔽的“黑产词”通常会扭曲常用词含义,导致“外行人”无法理解其背后的含义,上面举例的一些即是“黑产词”。
这里有个小插曲值得一提。
清华大学有一个优雅的小院名为“怡春院”,曾作为校机关的办公场所,但是,扭曲的黑产居然把这个词变成了……额……通过搜索引擎查询“怡春院”这歌关键词,国内外主流搜索引擎搜出来的都是成人社区(Google除外)。
他推测,也许这些搜索引擎比较真实地反映了用户搜索的需求。
雷锋网了解到,被推广的“黑产词“可以通过自动化方式检测出来。人们在查询某个商品时,可能会反复触及到多个类似“黑产词”的网站页面,这些页面有可能包含恶意或欺诈内容。
好消息是,利用搜索引擎查询相关页面,并结合相关搜索扩展查询结果,最后采用算法可将结果融合判定是否为黑产词,段海新和他的研究团队做的就是这件事情(也许并不是为了报“怡春院”之仇)。
如何通过自动化手段检测一些新的黑产黑话?
先来了解一下黑产网站是怎么推广的。段海新介绍,比如,毒品商家找到做非法 SEO 引擎优化的推广商,根据产品和关键词进行优化,搜索引擎的爬虫自动到网站上抓取内容,用户搜索时,就有可能被指向这个毒品网站。
因此,段海新的研究团队想出的对抗办法是:
1.输入两部分数据,一部分是搜索引擎厂商提供的恶意URL列表,另一部分是从蜘蛛池推广网站中抓取的200多万页面,在这些页面中提取的关键词。
2.过滤掉这些词中的合法词汇(白词),然后再到搜索引擎中验证一次,是否触发了搜索引擎的报警。
3.利用搜索引擎厂商的相关搜索进行扩展。
最终,就能找到“正确的黑话”。
看上去,三个步骤很简单,但是隐藏了三个复杂的问题——
1.如何提取关键词?
黑产关键词可能会出现在黑产网站的任何一个页面,在尝试很多区域后,段海新发现,明文可点击区域的效果最明显。
你要问了,如果黑产把黑词放在别的地方是否可以逃避检测?
并没有那么容易,如果黑产想逃避检测,带来的副作用是, 搜索引擎的爬虫也无法搜索到这些关键词。
2.如何过滤白词?
用自然语言理解的方法非常困难,但段海新的团队发现了一个简单的方法:很多词都是从新闻热点中抓取过来,而这些新闻标题比较长,所以我们就把超过一定长度的新闻标题过滤掉。
3.如何判断是白词还是黑词?
比如,“清华”是一个白词,所以搜索结果比较干净,而且搜索引擎已经把清华的页面标注,但是搜索“菠菜”,三条以上的搜索结果标注为报警,那么,这个词就可能有问题。
因为“相关搜索”关联了用户的搜索行为,用户输入了一个词汇,但没有点击任何一个链接,又搜索了下一个词汇,那么证明第一个词汇和第二个词汇是相关的;用户搜索了一个关键词,点击了一个链接,那么证明这歌链接里的关键词与这个搜索词相关。
于是,段海新和研究团队得到了 40 万个推广的黑产词汇,确定其中 94%为黑词,去掉地名等"长尾"修饰词最终得到了 1500 个左右的核心词,手工分成了六类,并提取了相关的域名和URL 还有 100万-200万个。
为了验证这些“黑词”是真的黑词,他们在2个不同的搜索引擎中再次搜索新黑词,比如,搜索“***商人”,某歌前10页全是与赌博相关的结果,则可以证明 SEO 的效果“非常好”,这些词是有效的新黑词。
拿到了黑词之后,有什么用?
(当然是为了打掉黑产,报“怡春院”之仇咯)
开个玩笑。
雷锋网了解到,段海新和他的同事们做了一个厚厚的研究报告,来讨论黑词的“用处”,他也简单介绍了几个用途:
1.基于黑产推广页面留下的电话号码,他们进行了统计,发现黑产电话号码归属地最多的是山东,徐玉玉案件发生在山东,也许不是偶然事件。
2.他们依据这些黑词对贴吧、论坛进行了统计,发现这些黑词在贴吧和论坛普遍存在,如果将这些黑词反馈给搜索引擎厂商,再次搜索,可以净化搜索结果,还可以净化论坛、网上商店。
3.利用现在扩展的黑词,在教育类和政府类网站进行搜索,发现大量被攻破的网站。
目前,段海新的研究团队正在与百度合作,应用其研究成果。
注:该文引用了段海新在2017网络安全生态峰会上的部分发言,该论坛由阿里巴巴和蚂蚁金服共同主办,干货十足。
--写在最后的话--
阿里巴巴的小伙伴告诉雷锋网,阿里也在淘宝上应用了相关对抗“黑话”的技术,在实际应用过程中,还要面对更多变得连亲妈都不认识的“黑词”,对抗升级更可怕。
于是,雷锋网决定,在接下来的某一期中,探讨阿里到底应用了哪些“黑词”检测与对抗技术,敬请期待。