雷锋网AI 科技评论按:3 月 30 日 - 31日,AITech 峰会在深圳龙岗区成功举办。
本次会议以配合国家新一代人工智能发展规划实施,支撑人工智能产业技术协同创新,加强人工智能领域的国内外技术交流为目的,由深圳市人民政府指导,深圳市龙岗区人民政府、中关村视听产业技术创新联盟、新一代人工智能产业技术创新战略联盟主办,深圳龙岗智能视听研究院承办。雷锋网作为独家战略合作媒体对整个会议议程进行了全方位现场内容的详细报导。
为期两天的会议包括两场主论坛和四场分论坛,分别为:
主论坛一(3 月 30 日上午)
分论坛(一):智能技术与标准及 IEEE Fellow 论坛(3 月 30 日下午)
分论坛(二):超高清与 VR 技术论坛(3 月 30 日下午)
主论坛二(3 月 31 日上午)
分论坛(三):人工智能与安全论坛(3 月 31 日下午)
分论坛(四):人工智能投融资论坛(3 月 31 日下午)
本文内容为雷锋网对人工智能与安全论坛的详细报道。其他内容详见:主论坛一、主论坛二、分论坛(一)、分论坛(二)、分论坛(四)。
在人工智能与安全论坛中,分别由深信服科技、慧安金科、360、百度安全实验室、北京顶象、阿里云等企业安全人员,以及北京师范大学、电子科技大学的安全专家以及国家工业信息安全发展研究中心的人员围绕人工智能时代的技术安全、反欺诈、人工智能相关法律、智能驾驶安全等方面做了详细解读。下面为详细内容:
古亮,深信服科技副总裁兼首席技术专家
古亮首先谈到了人工智能的机遇。他展示了人工智能的三次热潮。前两次多为学术研究主导,多是市场宣传层面;而最后一次则以商业需求为主,多是商业模式层面。此外无论是美国、加拿大、英国、法国,还是中国,都制定了相应的发展规划,做出了政策上的支持和规范。这对智能安全来说是难得的机遇,也是极大的挑战。
古亮以深信服为例。他首先介绍了深信服科技的基本理念,发展、业务图谱等,随后他提出深信服在智能安全上的三个安全理念:
可视是安全的基础:他认为传统业务的边界已经变得模糊。对这些业务的安全,如果无法看见就无法进行有效保护。
安全技术专项持续监测和快速响应:任何安全防御都会被攻破,所以要提供一系列的监测和支撑;另一方面任何攻击都有较长的潜伏期,而其爆发时间却极短,建立快速响应机制则能够将安全的瞬时降到最低,减少资产信息被窃取的风险。
安全的交付需要更加简单有效:现在安全产品的品类越来越多,架构也越来越复杂,建设难度较大,但是大多数企业并没有专业的安全团队,这导致大量的安全事件都是由于安全设备的错配漏配导致的,将安全建设变得更加简单有效则能大大降低用户的安全风险。
古亮随后针对智能安全的挑战做出了详细的分析。他总结智能安全的挑战有以下几点:
1. AI引擎框架的漏洞和缺陷可能会导致的安全隐患。例如TensorFlow、Caffe的漏洞,甚至于Python、Numpy的漏洞也可能会被攻击者所利用。
2. 使用对抗样本使人工智能时效。他提出“data is the new source code”,认为在智能时代,数据和代码一样可以导致安全问题。
3. 基于AI安全检测引擎结果的举证和鲁棒性。他认为AI安全检测引擎的结果事实上有时候是不准确的,其结果在样本集上是有效的,但是如果扩大的样本集外怎么确保有效仍然值得研究。
4. 人工智能是把双刃剑,它也有可能被使用来进行安全攻击。
基于以上的讨论,他呼吁大家共同来完善智能时代的网络安全环境,通过合作来与灰黑产的技术进行对抗。
吴沈括,北师大刑科院暨法学院副教授,联合国网络安全与网络犯罪问题高级顾问,最高人民法院咨询监督专家,中国互联网协会研究中心秘书长
作为一名法律专家,吴沈括副教授让在座的听众见识了法律人士对人工智能安全的严谨思考。
首先,他介绍了当前人工智能法律治理的现状。目前很多国家都已经或者准备开始对人工智能进行立法。这主要有两种原因:1、抢占立法优先权;2、人工智能确实产生了一系列的风险问题。美国在人工智能立法方面,主要看到的是关于自动驾驶方面的法律法规较多,也即关注人工智能对人身安全的风险;而在我国,则更强调技术本身的法律问题。针对人工智能的技术,他列举了人工智能面临的安全风险种类。
随后,按照法律的严谨风格,他对人工智能的含义做出定义和判断。他认为人工智能可以有两种定义:1)具有思考能力、行为类人、理性的计算机系统;2)一种自动学习、获取数据特征的计算机算法与系统。针对复杂多样的人工智能应用,他认为我们应当针对每一个具体应用领域和层面进行界定和立法立规。例如算法与系统层面有图像识别、用户画像、智能金融投顾等,硬件和基础设施层面有机器人、自动驾驶、无人机、物联网。这些都需要针对性地专门考虑。他还提出人工智能的三大网络安全风险,包括系统安全风险、算法透明度与可解释性以及数据利用与隐私保护。
吴沈括副教授还详细地对人工智能系统安全问题做出了详细的介绍,提出“人工智能的系统安全新风险主要存在于人工智能硬件应用的场景中”。
在网络安全法律视野下,人工智能安全的治理路径有两点:1)人工智能硬件应用与《网络安全法》的适配与融合;2)业务链责任承担问题,也即引入多维责任分配方案。
他在结语中总结了人工智能法治有以下几个要点和趋势:
立法与技术发展相适应,谨防抑制市场活力;
以具体应用为基础的人工智能法律治理将引导监管走向碎片化和多元化;
在人工智能时代,软性规范的适用将成为网络安全法律治理的主流方式,而传统的自上而下、以归纳思维为主的法律治理思路已逐渐无法胜任人工智能时代的监管重任。
黄铃,慧安金科创始人,清华大学交叉信息研究院兼职教授,英特尔研究院资深科学家
黄铃在报告中介绍了他们用人工智能技术做金融风控和反欺诈的经验。
据黄铃介绍,在过去的5到10年中,整个互联网黑产和灰产发展非常繁荣,导致今天互联网金融、银行机构等都面临着有组织、有分工、且具有先进技术(包括人工智能技术)的黑产攻击。针对这些黑灰产公积,现在市场上已经有一些解决方案,但是往往很难防止他们,因为目前的这些解决方案主要是基于规则或有监督的机制,这些方案需要建立在过去曾经发生过的欺诈行为中,但是面对现在团伙化、专业化的攻击,传统风控和反欺诈的方法在覆盖率和精准度上都存在一些问题,而且不能应对新的欺诈行为。
黄铃随后提出他们慧安金科建立的基于半监督主动式AI系统的企业级通用人工智能引擎。该引擎能够基于少量(甚至没有)标签的情况下、结合客户应用场景去主动进行风控和反欺诈检测。
黄铃首先向在座的听众介绍了半监督机器学习。这是一种用户关联聚类和分类相结合的方法,其建模实现为基于关系图的拉普拉斯调和解。但是这种方法的会随着用户数量的增加曾指数增长,这在千万级的用户数量下显然是不适用的。他们提出了一种关系图近似求解的方法将关系大图逼近为小图,在小图上做完拉普拉斯求解后,再映射回去,这保证了他们能够在千万级(甚至亿级)用户上进行运算。
基于以上的这些技术,他们做出了反欺诈产品「网铃」,该产品能够使用人工智能来分析海量数据行为数据,在不侵犯个人隐私,无预知欺诈的类型和特点前提下,仍然可以主动地在千万级用户中识别出不正常的行为和关联。其覆盖率能够达到80%,而准确率则高达99.6%。随后黄铃使用两个在线电商的案例给在座的听众介绍了其识别效果。
罗蕾,电子科技大学嵌入式软件工程中心教授,车载信息服务产业应用联盟网络安全委员会秘书长
罗蕾教授在报告中讲了四个内容,分别为国内外智能汽车网络安全相关标准,国外智能汽车网络安全相关技术,车联网络安全委员会的白皮书、指南细则以及网络安全标准体系,最后她简要介绍了车载信息服务产业应用联盟和电子科大嵌入式软件工程中心研究与产业化的基本情况。
罗蕾教授认为现在汽车工业正处于变革的关键时期,就像十年前手机的发展一样,正不断地智能化和网联化。与此同时也就出现了安全的问题。在安全方面有两种:safety和security。前者为安全可靠,指保护外部环境不受设备的伤害;而后者为安全保密,指保护设备不受外部环境的伤害。
随后罗蕾教授分别介绍了美、日、英、欧盟、ISO、国际自动机工程学会(SAE)、ITU-T(国际电联)、联合国、欧洲通信标准化协会以及中国的相关标准。我国在这方面提出了国家车联网产业标准体系建设指南,该指南包括智能网联汽车标准体系、信息通信标准体系、电子产品与服务标准体系、智能交通先关标准体系以及车辆智能管理标准体系。
在技术方面,罗蕾教授认为,车载硬件正从独立单元控制器演变为多域系统控制器,这满足了不断增长功能的计算要求。针对智能汽车的技术,HIS联盟提出了HIS规范SHE(Secure Hardware Extension),并提出三个安全等级。此外TCG、AUTOSAR、TEE也制定了一系列的技术规范。
罗蕾教授提醒说,现在很多业界人士认为2020年自动驾驶将会量产,但是目前国内相关的法律法规仍然比较薄弱,还需要大家共同将相关的安全与技术的标准和法律制定起来。
随后罗蕾介绍了电子科技大学嵌入式软件工程中心的工作情况。据罗蕾教授介绍,目前该中心承担了汽车电子网络安全标准的研究,并孵化了汽车电子网络安全公司“广东为辰信息科技有限公司”,为辰信安已推出网络安全产品与服务,并已经量产上车。
李康,360智能安全研究团队负责人
李康不仅是360智能安全研究团队的负责人,还是Disekt、SecDawgs CTF战队创始人、xCTF和蓝莲花战队的启蒙导师,2016年DARPA Cyber Grand Challenge决赛获奖者。据其介绍,DARPA举办的这场Cyber挑战赛为全球首次及其网络攻防比赛,整个比赛历时三年,是一种全自动、无人工干预的CTF对战,最终他们的成果被陈列在美国历史博物馆中。
李康随后列举了之所以关心AI安全问题的原因。1)人工智能造成了一系列的安全问题,例如Uber事件;2)人工智能/深度学习在生活中“成功应用”,例如通过人脸识别可以检测学生的迟到早退,分析学生抬头率等,而同样的也可以用它来刷帖、刷评价或者破解图片验证码。
他提出了自己的一个思想,即:安全和核心是对抗。随后他列举了人工智能时代可能面临的攻击类型。
首先是对抗性机器学习。这也是目前学界主要关注的研究内容。但是李康认为这虽然是一个大问题,但在实际中并不是主要的攻击方式。
其次是模型缺陷与后门。这主要表现在训练处的模型总是基于一定的训练数据之上,在遇到超出模型范围的数据时,模型将无能为力并导致系统决策失误。而另一方面,如果模型制作者在正常模型之外添加恶意模型后门,那么它完全可以骗过正常的检测。
第三种是深度学习软件中的安全问题。目前的深度学习应用事实上都是分层的,在应用层包括程序逻辑、模型和数据;往下为框架层,例如TensorFlow、Caffe、Torch等;再往下则是框架依赖层,包括python等。这些层次中存在的漏洞都可能造成安全问题。
另外一种是数据污染攻击。他以深度学习的典型应用——图像识别为例。李康以图像识别中最常见的手写字识别为例,他通过对图像进行降维压缩实现了机器误判“7”为“1”,将羊误判为狼。
高磊:百度安全实验室技术专家
报告伊始,高磊便给听众举了两个假想的攻击例子。首先是在语音识别时加入微扰的背景音,则能够通过背景音来改变识别出的结果,这可以例如篡改某一个数字或关键信息等。第二个例子是攻击者可以向人脸支付系统的审核人员提交一份加入微小扰动的本人照片,于是他就每次刷脸支付就能够由别人买单了。
以上两个例子的核心都在于通过加入微小扰动来生成对抗样本。高磊接下来列举了两种对抗样本攻击的“套路”。由于对抗样本可以在功能类似的模型之间进行迁移,因此攻击者就可以先用功能类似的白盒生成对抗样本,再用对抗样本去欺骗攻击的黑盒,此为套路一。套路一的加强版则为通过多个白盒模型来生成性能较好的对抗样本。另外一种套路则是给出一个输入,通过用黑盒算法搜索,获得对抗样本,再将对抗样本输入到黑盒获得分类结果。针对以上两个套路,高磊分别详细介绍了两个案例:FaceNet白盒攻击和人脸比对服务黑盒攻击。
最后高磊介绍了百度的Paddle对抗样本工具集,白盒对抗样本生成算法包括FGSM、BIM、BIM+M、DeepFool、JSMA等。可以在github上了解更多详细信息:http://github.com/PaddlePaddle/models/tree/develop/fluid/adversarial
黄亚军,北京顶象技术有限公司算法专家
对于一个企业在其整个的业务流程中都会去收集用户信息以构建用户画像,从而进行精准营销和信用评估。黄亚军在报告中针对这个问题讲了三点:1、如何提高数据采集的质量;2、如何权衡即有高价值同时又有高风险的用户画像;3、建立深度用户画像及其意义。
首先黄亚军提到,在企业通过客户端采集用户数据,但是在这个过程中,由于用户和企业系统之间隔着整个互联网,这就给企业的用户画像带来不可控。举例来说,一个黑灰产知道了一个企业APP的执行逻辑,他就可以根据这个逻辑去构造数据,去刷接口;或者进行大量垃圾注册等。这种风险会给企业带来价值损失,更重要的是会污染用户数据,导致用户画像失真。黄亚军提到他们针对此问题构建的一整套风控体系,从客户端到注册登录、到营销活动,到交易交付,到商品评价等。这种风控体系能够极大地提高画像数据的质量。
黄亚军随后介绍了如何综合评价用户的价值与风险问题。对于一个企业来说,无论是做风险决策还是价值评估,所依据的也即用户画像技术。在用户画像中如何降低误报同时提高价值转化则是非常重要的问题。在这种考虑就需要将用户画像放到价值和风险的组成的二维平面中进行综合评价,对于那些高风险同时也是高价值的用户不能直接丢掉,更不能完全拿来,这需要构建深度用户画像,以实现所谓的低误报和高转化。
所谓深度用户画像,即对用户数据(行为序列、关系网络等)更抽象的表征学习(多维连续空间),该表征尽可能保留数据自身的信息,使其更适用于复杂数据挖掘场景。
黄亚军分析了传统标签式用户画像与深度用户画像的优劣。对于传统的标签式用户画像,其标签主要是基于业务而制定,因此可解释性较强,且易于应用到业务策略和统计中;但是这种用户画像只是对数据单一维度的抽象,如果想要在不同业务之间进行泛化就会很困难。而深度用户画像则能够学习数据本身的特征,很容易应用到复杂的算法任务当中,对于不同的业务其泛化能力也很强。当然由于它应用到很多深度学习的技术,所以也带有深度学习的劣势,即可解释性较差。
何炜,阿里云算法安全工程师
如果前面的报告是从客户侧的角度考虑安全问题,那么何炜的这个报告则是从主机侧进行的考虑。何炜首先介绍了阿里云上面临的异常进程的现状,其次讲解了传统的单一&多维检测方案以及深度学习方案,并对检测方法的演进做了总结。
对于云上主机侧的安全入侵主要有两个方向,一个入侵来源为租户主机,另一个为入侵云基础设施。对于后者的防护,其实类似于一个大企业对其业务的防护,其数据较为单一,例如服务器配置类似、运行脚本、维护团队都基本一致。所以采用基线兜底、语言模型、领域知识即可很好地解决。
但对于前者的防护则较为复杂,因为在云中很多不同业务的中小企业,无论是运维、进程还是调度等都非常紊乱,没有一个统一的标准,因此也就不存在一个统一的自动化的安全防护模型。
针对此问题,何炜介绍了两种方法,迭代学习和深度学习。何炜在此提到的迭代学习有点儿类似前面讲者的半监督学习,也即先使用少量人工标注的样本进行训练学习,模型会学到一些新的变种行为,随后人为地将学习到的新行为特征再放到学习样本中进行迭代学习。但是迭代模型很难学习到一些距离较远的行为,因此当迭代到一定程度,性能就不会再有提升。
深度学习在封闭集中能够有很好的表现。所以阿里云也尝试使用RNN构建命令序列检测模型。这种模型能够将4gram拓展到更长的序列检测中,其感知范围更广。他们通过实验发现,基于RNN的模型其Loss有了较大的下降。不过何炜表示将这种方法推广开还需要有很多工作去做。
总结来说,阿里云在过去一年半的时间里,将整体降报率提升了89%,特征表达提升了8%,一句话进程提升了10%,规则外变种发现了12个。何炜提出,从感知能力上来看,智能模型由统计模型演化到迭代学习模型,随后会演化到深度学习模型。
张超,国家工业信息安全发展研究中心
张超的报告分为三个内容,首先他简单梳理了我国智能语音产业的发展历史,随后基于对智能音箱的组成和使用的分解详细探讨了智能音箱的安全问题,最后介绍了国家工业信息安全发展研究中心的工作。
据张超介绍,我国的智能语音产业发展大致经历了四个阶段:50-70年代的技术萌芽阶段,主要以中科院声学所的工作为代表;80-90年代的技术突破阶段,此时我国智能语音核心技术接近国际先进水平,但产品化程度尚需进一步提高;90-10年代的产业化阶段,智能语音企业相继成立,智能语音技术逐步在各行业应用;10年以后的快速应用阶段,以语音合成、语音识别等为代表的只能语音核心技术不断突破,产品和应用的可能性不断提升。
随后张超根据对智能音箱的分析,列出如下智能音箱组成和适用环节的完整过程,并以此为基础展开对智能音箱的安全问题讨论。
他认为智能音箱的安全存在四个方面:
软件方面:例如算法自身的漏洞或错误执行指令等;
硬件方面:例如声波攻击(超声波等)、硬件自身漏洞等;
网络方面:例如网络入侵、木马植入、传输风险等;
数据方面:例如个人隐私泄露、声纹信息泄露、数据密集导致的风险等。
进一步,他认为与传统网络安全更多是针对PC设备和服务器的系统漏洞和木马病毒相比,目前的网络安全将针对手机、音箱、电视、冰箱、空调、汽车等一切IoT设备。随着IoT设备的增多,在技术、机制等方面做好安全应对措施非常紧迫。
国家工业信息安全发展研究中心人工智能测评实验室目前正在建设标准化的测试流程和规范、构建丰富的测试数据集、建设多样化的标准测试环境,建设开放共享的资源平台。
以上为AITech 峰会人工智能与安全分论坛内容的详细报道。
相关文章:
AITech 深圳召开,企业领军人齐聚首,五位 IEEE Fellow 现场带来主题演讲