如果深度学习能识别一杯尿，那它也能用来识别恶意软件

人工智能深度学习机器学习网络安全

作者：李勤

2016/09/08 10:03

这是一个悲伤的故事，你可能经历过。

你又热又渴，看到桌子上有一瓶看起来像水的东西，来不及思考，揭开瓶盖喝了一大口。哦！漏！是油！

时间回到10秒前，我们重来一次。

这一次，额外的剧情是，你有一个看不惯的死敌和你一起住（这种情况在合租大军中很容易出现），他放了一瓶类似水的不明液体在桌上。

你又进来了，有累又热又渴，这一次你又端起来这瓶液体。这一次，你仔细分析了这种物质、形状和体积，你利用曾经的斗争经验再次判断，然后信心满满地做出了正确选择，完美地躲避了这场恶作剧——一瓶100%纯尿。

如果深度学习能识别一杯尿，那它也能用来识别恶意软件

福音来了

如果我把这瓶看似是水的东西放置在传统的计算机视觉模块下分析，可以轻易识别出来它的成分。如果我手欠，非得手抓瓶子再来试一次，由于手指光荣出镜，传统的计算机视觉模块突然无法识别了。但是，如果我机智地把系统升级，加入人工智能模块，即所谓的深度学习技术，那么即使手指出镜，这瓶液体也可以被识别出来。这就是在微小变化下，深度学习的好处——即使只能读取部分数据，大部分图像被遮盖，也能正确识别。

深度学习，就像人们所熟知的神经网络，受到大脑激励，不断增强学习识别物体的能力。以视觉识别为例，我们的大脑可以通过感官输入获得原始数据，同时进一步自主学习更高级别的特点。同样，在深度学习中，原始数据从深度神经网络中读取，凭此学习如何识别物体。机器学习，从另一个角度而言，需要通过机器学习模块，手动选择特征进行处理。结果，这种处理过程耗时长，准确性受到人工错误的制约。深度学习则更复杂、精密、自主学习能力强，能保证高准确率及超快的处理速度。

网络安全与图像识别相似，99%以上的新威胁和恶意软件实际上来源于此前已经存在的威胁和恶意软件的轻微“突变”。据说，即便是那1%的完全崭新的新威胁和恶意软件，也只是已存危机的大量“突变”而已。但是，尽管如此，即使是那些最前沿的，结合使用动态分析及传统机器学习的网络安全技术，也在检测大量新的恶意软件上遭遇重重困难，结果就是各类企业和组织极易遭受数据泄露、数据盗窃、恶意软件的扣押勒索和数据损坏。

福音来了，我们可以通过深度学习应用来解决这些问题，捍卫网络安全。

两类老办法"然并卵"

我们先简单回顾下检测恶意软件方案的历史。

基于签名的解决方案是最古老的恶意软件检测形式，它们也被称为传统的解决方案。为了检测恶意软件，防病毒引擎将一个身份不明的代码块的内容与它的数据库中已知的恶意软件签名相比较。如果与已知恶意软件签名不匹配，那么就要靠手动调整的启发式算法来生成一个新的手工签名，然后更新发布。

这个过程十分耗时，有时签名是在初步检测的数月后才发布。因此，这种检测方法无法与时俱进，跟不上每天产生百万个新的恶意软件变种的节奏，这也导致了企业和组织容易受到新的及已经被检测到却没有发布签名的威胁袭击。

用基于代码行为特点的启发式技术来识别恶意软件，产生了基于行为的解决方案。该恶意软件检测技术分析了恶意软件运行时的行为，而非针对恶意软件代码本身的硬编码。这种恶意软件检测方法的主要限制是，它仅能在恶意行动已经开始时发现恶意软件。结果，预防被推迟，有时甚至就是处理得太迟。

如果深度学习能识别一杯尿，那它也能用来识别恶意软件

沙箱解决方案则是基于行为检测方法的发展。这些解决方案在一个虚拟的环境中执行恶意软件，以确定该文件是否恶意，而非检测运行时的行为指纹。虽然这种技术已被证明在检测精度上相当有效，但是由于过程耗时长，因此实时保护成本高。此外，新类型的恶意代码可以通过拖延执行逃避沙箱检测，从而构成新的挑战。

深度学习检测效果显著

使用人工智能侦测恶意软件的方法应运而生。

结合人工智能，打造更复杂的检测能力是网络安全解决方案演变之路上的最新一步。基于机器学习的恶意软件检测方法应用更详细的算法，根据手动工程的特点来判断一个文件的行为是恶意还是合法。然而，这个过程费时长，需要大量人力在文件分级过程中来确定技术参数、变量或特点，在文件分类过程中的重点。此外，恶意软件检测率仍然离100%识别很远。

人工智能的深度学习是机器学习的一个高级分支，也被称为“神经网络”，因为它与人类大脑的工作方式如出一辙。高级认知任务在人类大脑的外部皮层进行，而我们有数十亿个的神经元，这些神经元可以通过各种类型的数据进行学习。由于深度神经网络是机器学习中的第一算法单元，不需要手动工程特征，因此这是深度学习的伟大革命。不仅不需要手动工程，它们还可以通过对原始数据处理高层次特征进行处理，自主学习识别对象，这种方式和人类大脑通过感官输入处理原始原始数据进行学习十分相似。

来，看我的手势，完美！

如果深度学习能识别一杯尿，那它也能用来识别恶意软件

当应用到网络安全时，在没有任何人工干预下，如预先告诉它这个文件是恶意还是合法的，深度学习的核心引擎一直在这种情况下不断学习升级，在检测首次发现的恶意软件时，与传统机器学习相比，基于深度学习的解决方案呈现出十分突破性的成果。

在基于公开已知的数据库的端点的真正环境测试中，移动和APT恶意软件的检测率也十分显著。例如，基于深度学习的解决方案对大幅和轻微修改的恶意代码的检测识别率超过99%。这些结果与深度学习在其他领域的表现是一致的，如计算机视觉、语音识别和文本理解。