最近,A 国 B 区发生了一起绑架案,为了破案,名侦探宅宅苦思冥想,把被绑架者、他的家庭、朋友等各类社交关系做成图片贴在在白板上,差不多就是这样吧:
然后,激动人心的 BGM 响起,宅宅拉开窗帘,对着朝阳深吸了一口气:妈蛋,哪部电视剧又在骗人?这些线索图我越看越混乱,现在脑子一团浆糊。
你说,骗人的是不是你:
▲美剧《丑闻》里公关小组疯狂地贴线索
又或者是你:
▲综艺节目《潜行追踪》寻找“被抓捕人”的线索分析现场
警察可能要骂人:我们真的还蛮电子化的呢。
比如:
这张图你一定很熟悉,看着很像北京的某高速线路。
事实上,上述闪着荧光的小点拼成的路线是伪基站的移动路线图。
这里说的伪基站并不是下面这种散热双肩背包:
也许是生意越做越大,背着这种伪基站双肩背包的小哥已经坐上了小汽车,他的车上就是一个大型移动伪基站,散播着全世界都有他们信号的梦想。
相关部门监测到这种伪基站信号数据后,用一些软件对数据进行了处理,然后,就自动形成了这条路线图。
根据这张路线图,警察蜀黍大致可以知道应该在哪里部署警力,在哪个高速路口拦下这一辆载着伪基站的车辆成功率最高。
在这种现代化工具的辅助下,2016年,警察蜀黍成功地端掉了窝在北京市昌平区的一些电信诈骗窝点。
利用计算机图形学和图像处理技术,将数据转换成图形或图像在屏幕上显示出来,这种技术就称为可视化技术。
你看得一脸懵X,它却可能是科学家的“量尺”
你可以这么理解,在一片浩渺的数据里,人类挣扎其中,就快被大量数据淹没,突然,所有数据按照一定的程序和规律自动“勾搭”,最后按照一定模型在你眼前形成了色彩斑斓却有迹可循的图像,让双眼和大脑从混乱中抽离出来,一切似乎清晰可见。
比如,这是一种最常见的可视化技术应用的场景:热力图。在这张热力图上,也许你知道这个节假日哪里人最多,哪里气温更高,从而作出一个出行决策。
你也可能看到一个新浪微博热搜词热力图,随时把握潮流动态(最重要的是,像宅宅这种媒体狗知道什么时候要跟新闻了)。
更多时候,你也许看不懂可视化技术像魔术一样把数据抽丝剥茧做成的图像。
你不信?我们来试试:
▲上述图片摘选自北大可视化实验室官网
但对专业人士而言,这些图片在他们眼里意味着许多。
在北京大学可视化实验室教授袁晓如看来,它可能是一张模拟风场的可视化呈现结果,通过中国的数据模拟接下来风的变化,最终看看雾霾要吹到哪里去。
如果不是雾霾,而是某些可能和利益有关的预测,公说公有理,婆说婆有理怎么办?
比如,面临全球气候变化这种大事,每个国家都有一批科学家来算,科学家提不同的模型。
即使是一样的数据,也可能做出不同的菜,各国都会偏向自己一点,最后算出来的结果不一。这时,我们需要可视化方法进行比较,这种比较并非属于A和B较高低。假如有 8 个不同的风场模拟图,每个模拟线路有不同颜色,把 8 个模型的输出结果结合对比,就可以发现 8个模型在全球预测的整体相似性。
对于科学家而言,这是一个重要参考:这种可视化分析结果提供了一把尺子,让你对比不同方法导致的不同的结果。
再说一个比较接地气的案例。
如果一个跨国公司的员工被绑架,警察要破案,并不需要抓一堆人回来问口供,用人力来分析数据看上去可行,事实上不可能在很短时间内分析出结果。
如果面对几千条文本,用交互式可视化进行分析,比如相同的颜色代表同一个单位,在建立相关模型后,可以发现一部分是该单位的员工,这些员工之前和该被绑架的员工有经历和行为的交集:他们是否都参加了某次聚会,他们是否认识同一个人,他们是否也在另一家公司一同工作过……比人工分析耗时更短,分析数据一目了然。
可视化技术并不是一个新东西,它早在1987年开始被科学界推动形成学科,后运用在计算机科学领域中。袁晓如也在2001年就开始关注可视化技术领域。
两年前,雷锋网参加一个虚拟现实与可视化计算大会时,就曾领略过可视化技术:在奥地利某小城的画面中,根据此前的洪水入侵城镇数据、城镇地理、街道及高度数据与相关模型,可以模拟预测,在哪一条街道设置防洪板,可以将洪水导流到哪一条街道,与此同时,又将对哪一条街道产生影响。
现在,除了之前提到的在地图等领域的应用,我们还可以看到一些可视化技术的精彩案例:
1.美国两百年间移民的变化。
2.2016年温布尔网球锦标赛的赢家和输家。
3.暴雨、暴晒等天气变化
随着数据从“大”走向了“大数据”,依托于数据开花结果的可视化技术未来有更多用武之地。在网络安全领域,已经有落地的成果——可视化技术绝对是各种安全研究人员的好帮手。
1.谬斯女神
360天眼团队技术负责人张卓告诉雷锋网,比如,在追踪各种复杂的 APT 攻击时,之前需要一个一个分析样本,手动统计区别,然后找出交集,再一步步追踪溯源,找到一次 APT 攻击的最终潜在源头。分析完了之后,再做出一张表,拿过去和同事讨论,没有直接分析样本的同事有时可能一脸懵X。
结果,最终呈现出的图片表格或得出的结论还是靠人力。
360天眼团队可视化技术专家黄鑫介绍:“追踪海莲花时,通过查询域名DNS解析记录关联出相关的IP地址,然后对这些IP地址进行样本查询关联出一段时间内的样本记录,这些样本记录再结合云端大数据和威胁情报数据进而分析出整个海莲花的攻击过程,链路以及涉及的各种资源。”
此时,追击APT组织的网络研究员再也不是拿着数据列表开始一项“鸡同鸭讲”的表演,而是真正“先有分析图”,一步一步让思路顺其自然地流淌,从而启发他们找到最关键的线索。
“因为是用程序和算法自动生成的图,同时也支持分析人员进行自定义的探索交互,整个分析思路、数据都保存在当前画布,便于后续的讨论和继续分析,极大提高了分析人员的分析效率和效果。”黄鑫说。
简而言之,可视化技术运用在其中成了安全研究员的谬斯女神,大部分时候还把数据整理、关联等“打杂”的活揽下来。
这对大部分哭着喊着很缺高级安全研究员的安全公司而言,应该十分兴奋:人力都用在更高智力层次的分析上。
2.态势感知:伪基站、勒索病毒似乎“真的看得见”
如同开头所举的案例一样,在打击伪基站与电信诈骗上,通过搜集的数据,你可以实时监测到某天某一时刻某一地区的伪基站活跃情况、诈骗短信内容、发送区域、数量等,对于警察而言,作用不言而喻。
▲某一时间北京地区的诈骗短信发送密集区域
且仅从上述两位安全研究员基于自身的介绍,重点网站监控、DDoS攻击监控、蠕虫木马监控、网站事件运营、高级威胁云端监测、Petya 勒索病毒等都能处于“真的看得见”的级别。
所谓真的看得见,是在“大数据”的基础上,你在可视化界面中看到了一张中国地图,随手点开一个省份,一个城市,一条街道,一个单位,都能看到被攻击单位的具体位置、名称、被攻击时间……
在本地化企业资产盘点和威胁感知中,只要该地相关负责人同意,接入数据后,整个区域所在企业的IT资产信息、网络安全状况、负责人联系方式……一应俱全,在紧急安全事件发生时,系统可以自动通知。
按照黄鑫的说法,今年下半年他们想把“应急处理”推广开,不仅局限在本地化中,当然,这就是另外可以再说的故事了。
雷锋网了解到,其实很多威胁感知平台都应用了可视化技术,而决定可视化精度和实时性的依然还是那个老问题——数据、流量。
如果说,上述是决定可视化技术在网络安全领域的这一落地应用效果的关键因素之一,袁晓如,这一身处科研界的可视化技术资深科研人还有另外两个烦恼:第一,可视化技术的工程化、商业化应用——这几年,他和360天眼团队在安全可视化上进行了合作摸索,但可视化技术要想在安全领域的商业应用突飞猛进,恐怕还要不断探索;
第二,可视化人才缺乏,为此,苦恼自己实验室人才缺乏的北大教授不得不走出实验室,办了四届中国可视化与可视分析大会 (chinavis) ,目的还是选拔人才,促进整个链条的发展。
黄鑫对此感同身受,搞了好几年,天眼的可视化团队依然只有几个人,最关键的是,既懂安全、又懂可视化技术的复合型人才实在太少。除了安全,可视化技术与其它学科能通晓的既专又复合的人才也不多。
雷锋网让黄鑫列举他今年看中的人才,他数了数,一声叹息。他最看中的那个可视化和安全都十分精通的稀缺人才,目前正在袁晓如的实验室读博士,暂时想挖过来是不可能了。
▲表示我已经看开了(其实求贤若渴)的黄鑫(左)、张卓(右)
注:本文所列举的天眼可视化技术应用不代表目前可视化技术在网络安全领域的所有应用,仅为案例之一。