雷锋网编者按:随着柯洁和李世石败给了人工智能机器人,深度学习其实已经在不同领域有非常显著的发展,而京东的AI在账号安全场景上已经运用一段时间。在6月30日举办的CCF-GAIR智能安全专场中,京东安全北美研究院院长苏志刚Jimmy Su主要分享《机器人与对抗性机器学习:不断升级的验证码战斗》这个演讲。
苏志刚(JIMMY SU)加州大学伯克利分校(University of California at Berkeley) 计算机系博士,京东安全硅谷研究中心负责人,研究领域主要聚焦在:账号安全、APT防御、人机识别,数据安全,AI安全应用,大数据,IoT等方面。
进入京东之前,是火眼(FireEye)研究院总监,研发了多项国际先进产品,领域包括网络安全,移动安全,反欺诈,电子邮件安全,端点安全等。
2018 全球人工智能与机器人峰会(CCF-GAIR)于6月29日在深圳召开。本次大会共吸引超过2500余位 AI 业界人士参会,其中包含来自全球的 140 位在人工智能领域享有盛誉的顶级嘉宾。
以下是他在现场的演讲,雷锋网做了不改变原意的编辑整理。
大家好,我是京东安全苏志刚,很高兴能跟大家分享京东最近的一些研究成果,今天分享的是《机器人与对抗性机器学习:不断升级的验证码战斗》。
众所周知,机器学习在不同领域里已经有非常显著的发展,在围棋方面,阿法狗已经打败世界冠军柯洁。除此,深度学习还有非常丰富的场景,比如京东的咚咚音响、无人机、无人车等智能设备中的应用。
随着深度学习的广泛应用,攻击的规模和复杂性都在增加。在安全层面,京东的AI在帐号安全等场景已经有了深度应用,比如,注册,登录,以及订单等各个业务环节。在账号安全阶段,我们通常会从三个维度来对抗黑产。
事前:通过黑产舆情监控,风控黑手机号、黑IP、黑产工具等,提取威胁信息在事前拦截。
事中:利用设备指纹、行为识别等技术,甄别黑产和正常用户。顾客安装京东的APP后,我们会通过移动SDK功能来采集设备的指纹(这也是用户身份标签),在注册阶段,我们会通过生物探针检查注册的行为是来自人的还是机器的。用户登录以后,我们还会做行为分析和异常检测。
事后:前两阶段可能做不到100%的拦截,在后续的订单环节,我们利用大数据建模功能,来进一步辨别黑产和正常用户,查找蛛丝马迹(比如黑产的机器行为相似度等)在后续的订单等环节拦截处理。比如,我们会根据从不同的IM渠道收集的黑产情报(包括高危地理地址、黑手机号、黑IP等)做风控处理,在下单环节做拦截。同时,我们还会根据风控的各类问题,来查找业务漏洞,及时止损。
欺诈行为有哪些?
现阶段的电商购物环境下,我们会看到各种欺诈行为,包括机注、刷单、黄牛、刷券、恶意订单和虚假评论等。
黄牛
黄牛是一个非常有组织的黑产行为,并且有精细的分工,每一个分工都由不同团队完成。
第一步,黑产也有爬虫,这种爬虫会实时监控到我们某一些促销活动,优惠券和商品价格等。
第二步,大黄牛会分布式的用IM,用QQ跟微信把信息发送给小黄牛完成任务。分布式是为了绕过我们的人机识别,因为小黄牛跟机器下单不同,他们的行为统计是不一样的,用一些基础的人机识别是不能识别出来的。
第三步,当小黄牛收到任务以后,通常会用一些通用的黑产软件去做登录,定时下单。这里有一些非常成熟的工具,包括火牛跟刀锋。
这些黑产软件也会用到一些有AI技术。比如,黑产软件登录以后,会碰到不同的验证码,图片验证、手势验证、动作验证等。针对不同类型的验证码里面会用一些不同的打码平台。
一般的数字、图片验证等,有AI模型的打码平台,通过机器就可以批量验证;也有人为验证,为的是躲过人机识别拦截,所以就出现了大佬在屋里喝茶收钱,小兵在偏远山区,几百个人坐在一起解验证码的情况。
上面的图片是采购黑产工具的地方。
这个图片是人工打码平台,每个人是有一个工号,而且要在十秒钟内就把图片验证码解开,十秒钟内反馈给黑产工具,黑产工具就可以继续做注册。
注册完成之后,也可以卖这些注册账号,这些被卖的账号也分不同类型,非实名帐号比较便宜,实名帐号比较贵,而这些灰产的销售平台通常是电商网站,也会通过社区和一些批发网站,这些销售渠道也需要我们进行实时监控来观察其在黑市走势。
有了账号以后,其中一个欺诈行为他们可以做的就是刷单,目的就是利用虚假订单提高第三方商家的排名。再有一个,就是恶意订单,也是第三方厂商之间的恶意竞争,这个目的就是去破坏对手促销的活动,做恶意订单能够打击第三方对手的存货量。
最后黄牛把货拿到手以后,再想办法洗白兑现,然后就把赚到的钱继续从整个环境里跑下去。
我们的对抗方法
在黑产的每一个环节里我们都有机会用一些防守技术做拦截。
首先在爬虫这层,我们会用一些反爬的技术,让黑产不能这么容易实时知道某一些促销活动的存在,如优惠券是什么时候开始发的。
第二步,我们会渗透到大量黑产群里,用我们自己的爬虫爬取信息,比如,会用NLP的技术监控黑产的活动,黑产所用到的工具、技术等。
我们要知道实际攻击的工具、技术跟场景,才能够有效做防守。
首先会用无监督学习,做聚类,把一大波一大波的机注账号、黄牛订单先找出来。其次,我们会通过数据建模做行为分析,比如在PC端,我们会用到键盘跟鼠标的行为作为人机识别的特征。如果在APP上,我们用什么角度掌控手机的,或者怎么样滑动手机的手势,还有GPS各种不同的特征等。
我们得到黑产工具以后,会有团队做黑产软件的逆向,通过逆向我们发现黑产其实是用了某一些业务漏洞或者关口,进而推动我们做业务整改。
打击黑产平台其实就是一个AI对抗AI的过程。也会产生一些高对抗性的样本,比如我们会针对黑产也应用AI对抗,来给出一些样本,正常情况下,黑产平台可以正确的把这些数字都识别出来,但通过我们一些改动,新的样本出来以后变成模型,就会识别错误。但从人的肉眼其实可以很明显看到,变化后的样本跟原本的样本是有差别的,所以对一个人来说还是可以验证成功的。
到了收货地址这一步,我们还是有机会去拦截的,因为地址会有聚类,我们发现黄牛收货地址是有区域性的。一个例子,我们发现在湖北某一个地区,持续做黄牛奶粉活动,拿到奶粉以后就会兑现变成现金。在广东佛山有一个地方做高价手机的黄牛。因为它有固定区域比较容易让他把手机第二次卖出,兑现成现金。
当然这些对抗也不是一成不变的,黑产也在研究你,也在不断进步。我们观察到这半年黑产技术快速迭代,攻防周期是一两天左右。我们上一个新的策略,黑产会很迅速地一两天后就出现新的版本。我们持续监控黑产工具,可以看到迭代非常频繁。
京东安全有非常广泛的AI应用场景,AI应用是能让我们高效运作的唯一途径,所以刚才其实我们只是看了一个例子,就是电商和黑产之间是有持续的高对抗性的攻防。
谢谢大家。
雷锋网:您怎样看待在电商平台间持续的黑产对抗中AI扮演的角色?
Jimmy Su:其实AI是一个攻防都可以用的武器,或者已经变成攻防都必须用的武器,否则就是落后。
刚才在演讲中我提到说攻击者利用AI技术可以非常高准确率的解决图片验证码。从防守的角度来说,如果不用一些AI技术对其进行破解话,可能整个验证过程都会被击破。其实验证过程很重要,因为它分两部分。首先在前面会有一些风控模型告诉我们,比如100个账号是有风险的。后面就需要一个验证码对这100个账号做二次验证。如果验证码不够强,可能这100个有问题的账号中通过了99个,这样即使风控模型识别出来了,但是还是没有达到作用。
雷锋网:AI技术运用在电商平台狙击黑产的困境是什么?
Jimmy Su:主要问题是若要做到全面防守,需要覆盖无数可能被攻击的点,但其实黑产只需要突破一个点,就已经得到它想要的东西。
所以很多时候我们会看到一些,比如我们在APP端提高了人机识别技术,但很快黑产就会以一个PC端或者另外一个我们还没有应用这项技术的端进来。毕竟我们这些新的技术都会从不同时间、不同的端去部署,其实我们最后要做到的就是能够统一防守的技术,保护所有的渠道。
但这是很难的,因为我们的渠道非常多,也会越来越多。所以,从我们的角度,我们要防住每一个漏洞,但是黑产其实只需要突破一个。
雷锋网:关于用户隐私保护这方面京东是如何做的?
Jimmy Su:这其实是我们持续会去对抗的场景。很多时候某一个友商的平台被黑产做了拖库,得到了大量账号名或者是手机号加密码。随后很快(大概一、两周)我们就会看到黑产会用这批被拖的账号对京东做撞库,看一看这些账号或者是手机号,在京东能否登录。
所以,我们在这方面在做一些实时的撞库拦截,我们会突然看见很多失败的登录。当然,因为很多人都会重复使用密码,所以也会一定比例的账号密码。但是我们会做一些设备指纹,以及异地登录的检测。如此一来,即使黑产得到了正确的密码,但是它登录设备与我们保护的这个顾客不一样时候,我们会对它做二次验证。所以,很多拖库账号都不能进来。
雷锋网:目前在我们的APP或者其他客户端都增加了不少认证手段确保安全性,但对用户来说增添了操作步骤,这种适用性和安全性是否需要平衡?
Jimmy Su:肯定需要平衡。
用户可能会担心自己的一些敏感数据或者行为被收集,但其实我们并不会收集这种私人行为。就像刚才说的,我们会在PC注册页面查看用户鼠标和打键盘的行为,但不会记录这个用户打了哪些字或者是按了哪些键,我们只是通过鼠标的加速、减速,或者打键盘的不同速度,去做一个用户画像,看看是不是这个用户来登录或者注册,但是敏感信息我们不会收集。这些都会在装APP之前很明显的告知顾客,提示我们需要收集的信息,当然,这么做也是为了更好的保护用户隐私。
收集上述信息比如键盘操作主要有两种作用:
第一,识别是一个人的行为,不是一个机器的行为。
第二,识别是用户本人登录的,而不是另外一个人去盗号登录的。一旦识别出来非正常操作会增添二次验证,有时候会是验证码或是一个语音识别。
雷锋网:京东准备之后如何用AI技术打击黑产呢?
Jimmy Su:人机识别我们会坚持做,之后我们会通过人机识别里面的一些特征去做用户画像,做到就算盗号者用我的手机,有我的密码,但他登录进去也会被识别出来,这个技术现在已经在京东APP里面了。
还有一个需要做的就是把一些离线的深度学习模型变成是实时的。因为我们发现其实黑产的动作很快,他有可能从注册登录到下单,整个流程都是自动化的,所以现在很多模型都在改造成实时模型。