鲜为人知的暗网，利用机器学习现在也能对其进行监控了

机器学习暗网深网 MIT

作者：李尊

2016/08/09 19:10

鲜为人知的暗网，利用机器学习现在也能对其进行监控了

导读：美剧《纸牌屋》中提到——96%的互联网数据无法通过标准搜索引擎访问，其中大部分属于无用信息，但隐藏在表层之下的有许许多多你无法想象的内容，包括：儿童贩卖、比特币洗钱、致幻剂、系统漏洞、赏金黑客等等。

对于普通人来说，暗网（Darknet或Dark Web）、深网（Deepnet或Deep web）这两个名词可能从来没有听说过。暗网（Darknet或Dark Web）是指只使用非常规协议和端口以及可信节点进行连接的私有网络。与其他分布式点对点网络不同的是，暗网的数据传输是匿名进行的。当今互联网上的搜索服务可比喻为像在地球的海洋表面的拉起一个大网的搜索，巨量的表面信息固然可以通过这种方式被查找得到，可是还有相当大量的信息由于隐藏在深处而被搜索引擎错失掉。绝大部分这些隐藏的信息是须通过动态请求产生的网页信息，而标准的搜索引擎却无法对其进行查找。传统的搜索引擎“看”不到，也获取不了这些存在于深网的内容，除非通过特定的搜查这些页面才会动态产生。于是相对的，深网就隐藏了起来。所有暗网的集合组成了深网（Deepnet或Deep web）的一部分。据估计，深网要比表面网站大几个数量级。

它其实与我们的网络生活息息相关，特别是安全方面。让我们先来看一个案例：

早在2015年2月，微软在Windows操作系统中发现了一个严重的漏洞，该漏洞可能会导致恶意攻击者远程控制目标电脑（俗称“肉鸡”）。这个漏洞影响了大量的Windows操作系统（包括Vista,、7、8以及其他Windows Server服务器系统和Windows mobile系统）。

微软马上发布了补丁进行修复，但是没过多久这个漏洞就已经在黑客社区传播开了。

4月，网络安全专家发现基于这个漏洞的exploit已经在暗网（darknet）市场上进行公开出售，要价在$15,000美元左右。7月，基于这个漏洞开发的恶意软件被报告出现。该恶意软件“Dyre Banking Trojan”目标针对全世界的用户，想从被感染的计算机上盗取用户的信用卡相关信息。

鲜为人知的暗网，利用机器学习现在也能对其进行监控了

暗网上某交易市场

这一案例恰好提供了恶意软件从来源到发展成型的关键过程，在短短几个月内，黑客将一个漏洞变成了exploit，然后将其打包出售，再后就可以看到其变成了恶意软件被释放到全球的互联网中。

在该案例中，微软察觉并找出了那个漏洞，并在它被利用在恶意软件中之前发布了一个补丁。但是如果恶意软件利用的是软件未知的漏洞，相关的开发者就必须马上发布相应的补丁（基本上是在同一天内），所以也有个名字叫“0day攻击”。

鲜为人知的暗网，利用机器学习现在也能对其进行监控了

针对这一类型的网络安全犯罪，对于网络安全专家来说关键的目标是在一个漏洞被恶意软件利用之前0day内将它找出来。Dyre Banking Trojan的案例对于Eric Nunes以及他在Arizona State University的同事来说，这给了他们重要的启示。

今天他们宣布了一个新的智能采集系统，它能在暗网（dark web）和深网（deep net）中使用机器学习来研究黑客论坛以及他们的交易市场。该系统能搜寻潜在漏洞的线索。

他们的系统一开始的表现就十分亮眼，Nunes和他的同事提到“目前，系统平均每周都能找到超过305个高质量的网络威胁。”

使用深度学习的漏洞搜索引擎十分罕见，让我们先来了解一下背景资料。那些黑客以及一些不怀好意的人一般倾向于将它们的论坛和交易市场在互联网中隐藏起来，一般来说有好几种方式。第一种是依赖于广泛使用的Tor软件（该软件是著名的匿名代理工具，由开发）来掩盖自己在互联网上的行迹，防止被追踪。这个被称为“暗网（Darknet或Dark Web）”

第二种使用的是那些开放网络中没有被搜索引擎收录的地址，这个被称为“深网（Deepnet或Deep web）”，这些网站一般很难被找到（也很难登录上去）。

为了监视黑客在这两个地方上的活动，Nunes和他的同事开发了一个特定的爬虫来抓取暗网（dark web）和深网（deep net）上的信息。显然，这份工作中的关键步骤是给爬虫指定的开始页面，显然这项任务必须由那些对这些暗网、深网信息十分熟悉的人来进行。该研究小组随机开始在暗网、深网中将与黑客行为相关的特征信息提取出来（要筛选掉那些毒品、枪支等等其他信息）。

最后，他们使用机器学习算法来检测相关站点上的讨论的物品和主题信息。他们使用的机器学习原理是通过手工标记约25%的数据，表明哪些相关、哪些无关，然后该机器学习算法通过自主学习剩下的相关数据并进行判断。对于人类来说需要一分钟来标记五个交易市场或者相关论坛上的两个主题，但是让机器学习算法来干的话这个时间可以大大缩小。

鲜为人知的暗网，利用机器学习现在也能对其进行监控了

利用机器学习查找暗网、深网中信息示意图

最后的结果相当有趣，Nunes和他的同事提到“使用机器学习模型之后，我们能够以相当高的精度查探到相关交易市场上92%的相关信息以及论坛中80%的与恶意攻击有关的讨论信息。”

这项技术早已揭露了大量的恶意攻击活动，Nunes和他的同事提到“在过去的四个星期中，我们在交易市场数据中检测到16个0day漏洞。”这其中包括一个重大的安卓（Android）漏洞（它被打包约20000美元出售）以及一个IE11浏览器的漏洞（它被打包月约10000美元出售）。

他们同样发现了使用这些论坛和交易区的黑客的行踪，据称有751个用户同时出现在一个交易区，并且有一个卖家同时出现在7个交易区中，在其中一个交易区中提供超过80个恶意软件产品。“该卖家得到的评分平均在4.7/5.0，该评分由所有与他交易过的买家评价得来，根据相关信息他在暗网中曾进行超过7000次交易。”Nunes和他的同事提到。

对于打击网络犯罪来说这是相当关键的一步，目前使用该机器学习模型每周能识别超过300次网络威胁，该系统早已吸引到相关业界公司的注意。如果他们的研究团队接下来能继续在漏洞被恶意软件利用之前0day识别出来的话，那么他们就能帮助相关的软件开发者迅速开发出相应的补丁，这对于安全专家来说是相当重要的帮助。

道高一尺，魔高一丈。在网络安全上这最终还是会否变成一个猫鼠游戏？我们不禁思考，当黑客们意识到他们会被机器学习算法这样监测之后肯定会改变他们的活动方式，到那时机器学习算法是否还能高精度的进行监控识别呢？

via MIT Tech Review