AI博士从“解放”鉴黄师起步，十年专注安全AI

作者：李勤

2019/04/30 12:45

2009 年，主要从事数字信号和图像处理研究、博士刚刚毕业的薛晖拿到了阿里巴巴的 offer，那一年淘宝的全年交易额已经达到 2083 亿元，薛晖激动地搓搓小手，阿里巴巴的网站上有大量未被挖掘利用的数据，比如照片、视频、语音以及非结构化的文本，如果能让机器做到看清和读懂这些信息，一定是一件非常有意义和有价值的事。

AI博士从“解放”鉴黄师起步，十年专注安全AI

薛晖的构想很美好，要将图像识别的技术应用到阿里巴巴的搜索、广告以及安全审核中。然而，正经如薛博士，万万没有想到，公司先给了他一项重要的任务：解放千千万万奋斗在电脑前的鉴黄师们。

“我来的时候，要解决的最大问题是淘宝的审核问题，当时淘宝有很多违规图片，色情图片或是其他违法图片。鉴别文字时，我们还能通过关键词或者变体词汇来审核，但是对待图片，完全没有能力，都靠人工。”薛晖对雷锋网说。

所以，接下来雷锋网要讲述的是十年 AI 大佬如何从“解放”鉴黄师起步的故事。

AI博士从“解放”鉴黄师起步，十年专注安全AI 【阿里安全图灵实验室负责人薛晖】

一

有些学霸选专业，哪里分数高，就去哪里。

十年前，阿里巴巴搜索部技术很牛，于是，薛晖雄心勃勃地来到搜索部，并在 2010 年，与两个男同事提出了一个非常创新的方案：将搜图应用在电商场景，比如用户搜索时设置颜色导航，只要搜一件格子衬衫，蹦出一个调色板，点选颜色后，就会出来颜色一样的格子衬衫，他们甚至提出了现在非常流行的“以图搜图”的设想。

AI博士从“解放”鉴黄师起步，十年专注安全AI

想象很美好，现实很残忍。那会，多数人手里还拿着诺基亚，超过 1 M流量，可能要被运营商收走 5 块钱，这样“超前”的业务理念夭折了。

深度学习技术和高性能计算服务器并未成熟，移动端的各类应用也未普及，薛晖还觉得，自己对业务痛点和场景的理解不足，对技术天花板的判断不足，特别是当两者遇到矛盾时找不到可以妥善解决的方法。

随着淘宝业务量的大量级提升，包括商品和社区板块的 UGC 信息量增长很快，原有的规则加人工的审核模式无法满足需求，也就是说，几十个淘宝小二（鉴黄师）面对数据海量增长，筋疲力竭。阿里内部愈发发现，安全更加重要，以淘宝安全为基础，阿里集团安全部正式成立。

这个部门吸引了薛晖的注意力。

学霸内心一盘算，阿里是一个典型的技术要与业务高度结合的公司，要把之前的技术推下去，得有应用场景啊！鉴于之前在搜索部初试反击黄赌毒有一定效果，薛晖觉得，自己推行的技术在安全领域可能比较容易落地，于是，他主动申请转岗到阿里安全部。

薛晖把黄图鉴别和以图搜图的技术用到了这里。最早，他采用的是利用黑样本图片找到类似图片的方法，并逐渐加上了 OCR 和人脸识别技术，当然，这些都是基于传统技术，当初并没有深度学习技术的应用。

比如，当时薛晖等人是这样区别一张色情图片与正常图片的：

有大面积的接近皮肤颜色的像素
像素之间是有连通性而不是很分散
纹理特征接近皮肤
存在类似躯干比例的矩形或椭圆
皮肤区域是否集中在人脸以下的特定位置等

所有这些特征的权重组合通过机器学习模型决定，也因此，机器通过颜色、纹理、形状来识别黄图，大量肉色的沙发、地板会被“无辜牵连”，机器鉴黄也只能识别正经脸的苍老师，动漫版、大幅度倾斜的小黄图无法识别。

薛晖还面临刚起步需要“证明自己”的问题——这项业务看起来还没有那么重要，大家不相信他们可以做出来什么，所以薛晖等人要不到研究的钱和资源。比如，他们要想申请一台几万块的物理训练机，要把报告打到高层老板那里。

要想证明项目可行，就要提效省钱。

虽然上述首次使用的基于统计模型的机器学习方法现在早已被迭代，但在过去，它能把效率提升几十甚至上百倍。“当时全人工审核没法筛选图片，降人力是最关键的，也是最直接的。”薛晖说，几年间，数据量呈线性增长，刚开始负责人工审核的小二是几十个人，现在依然是几十个人。

二

薛晖一边解放着人肉鉴黄师的人力，一边迎来人工智能发展的大势。

2016 年，Alpha-go 战胜了李世石，谷歌也正式发布了基于神经网络的机器翻译系统，神经网络通过各种应用正在重塑图像识别、自然语言处理等领域。同一年，阿里安全部将薛晖所在的整个基础算法团队更名为“阿里安全图灵实验室”。

薛晖忙着将负责业务的模型往深度学习上的迁移，一边与团队一起将人工智能技术落地到更多的场景，如知识产权、身份核验以及各种基于人脸识别技术的 IOT 应用等。

比如，他们将这套鉴黄体系以产品形式推了出来——有“AI 鉴黄师之称的阿里巴巴“绿网”用人工智能识别网络上包括色情、暴力在内的违规信息，通过人工智能、深度学习等技术，识别千万张正常图片与色情图片，最终生成一个智能鉴黄模型。

淘宝店铺迈向实人认证也是其中的应用之一。刚开始，上传到后台的信息都由人工比对，两个人是不是同一个人？身份证号码是否和人匹配？2016 年，实人认证进入了完全自动化时代，很少有人知道，一个机器大脑正在处理这个庞大的信息库。店铺用户上传的所有信息经过机器之手，人类却无权调用。

薛晖所在的团队在证明可以“提效省钱”的基础上，面临了“赚钱”的挑战。

上面提到的“绿网”是在阿里提出生态战略的背景下被阿里云“集成”的技术，这款提供内容安全、实人认证的云服务产品推出伊始，瞄准的是阿里体系的生态企业，现在也包括阿里云上的客户。

“本来对内服务的产品，走到到一个充分面向市场竞争的环境，一下子还不太适应。”薛晖发现，在阿里内部场景积累的经验和模型并不可以直接拿来使用，尤其是面对云上形形色色的非电商行业客户。从阿里内部跳出来看，“绿网”的竞争对手并不是传统意义的巨头企业，而是各类做计算机视觉、自然语言处理的独角兽和创业公司。

没什么别的好办法，只有不断在标准化、通用性、技术先进性上打磨产品。对于“被集成”的绿网，要靠业绩说话，薛晖对雷锋网透露，绿网现在每年为阿里云贡献了不少收入。

证明了自己对业务的重要性后，阿里安全图灵实验室从二十几人一下跃升到几十人的规模，并且在北京建立了新的小分队，薛晖不断在北京和杭州间来回，让新团队跟上节奏。

三

他们的节奏不得不提起来了。

对薛晖而言，更多技术的落地并没有那么容易。光拿下阿里杭州园区的门禁，他们就费了一番力气。园区的行政部门的同事对使用门禁刷脸有顾虑：

识别率到底高不高？园区里这么多人，误识别了怎么办？
无人值守这些人脸识别设备时，会不会有人就拿着照片或者手机屏幕直接破解？
上班人流高峰期，过人脸识别这一关快不快？不要大家都挤在一起上不了班。
最重要的是，你让我们增加高清摄像头，成本会不会蹭蹭上涨？

薛晖带着人一步一步去说服，通过一些数据和 ROI 的分析说服了业务愿意试点，一开始是在一个卡口上进行，为了取得最好的调试效果，工程师们自己扛着摄像头到现场进行参数调试和角度安装，甚至要考虑安装在室外的闸机是否受到环境光照影响，还要人工审核、分析每一个错误识别的案例，到底哪里出了幺蛾子。

把摄像头放在线下的外部商场里，提供线下新零售的安全解决方案更难。

首先是成本控制问题，不能用太贵的摄像头，还要解决人群、人体、货架的遮挡，每个店的地理环境甚至都有影响，比如，有些店是长廊形式，但有些店面是完全开放的，甚至没有明确的边界，入口和出口的数量不一，摄像头摆放的角度和数量都有讲究，而这些都只是为背后的“安全 AI 大脑”助力的触手。

薛晖等人还要解决的是“人”都很难解决的问题。

人工智能技术在很多场景能应用好依赖于几个条件：第一，场景比较封闭，是一个比较容易定义的问题。第二，有大量的标注数据。第三，计算能力。

线上结构化的信息可以告诉你，那些是垃圾账号，哪些注册地和登陆地时常修改，客户下单的正常、非正常路径是哪些，依靠这些数据，AI 可以洞悉一切不安全。但是，到了线下，小偷可以从任何一张门进来，买货之前可能有无数正常的路径，还可以躲在各种遮挡背后。

上面那些条件很难成立，薛晖只能再次向实际的保安或安全人员学习抓小偷的经验，再用机器实现。

“现在我们有团队直接在商场里点对点做，就是不停地去调现场的问题，不停地跟他们的店长、店员、安全人员沟通，这是一个非常复杂的问题。”薛晖说。

除了内容安全、知识产权保护、实人认证与身份核验、安防以及新零售的线下安全，薛晖还想把 AI 推到更垂直的安全场景中。

3 月 30 日 18 时，四川省凉山州木里县一个名为雅砻江镇立尔的村落村，发生严重的森林火灾。30 名灭火员牺牲，其中 27 名消防员，最小的才 18 岁。

薛晖认认真真想了两天，以前开玩笑说要用 AI 解放全人类，这种高危的场景下更应该有 AI 的应用。比如，火灾防控也会涉及到很多图像和视觉的问题，是否有更好的制定战术控制火势的方法？

“30 个人员牺牲，这代价是非常大的，我女儿小学班的家长里有人是消防员，曾经组织过小学生和家长去参观消防队怎么工作，所以我也特别想到这个点，这是非常重要的工作，我们身边也会有人在做这件事情，我有时候在想，这属不属于 AI 安全或者是安全 AI ，让我们今天从事的工作更安全，这也是保护人。”薛晖说。

十年前，薛晖隔壁实验室的同学现在已经做出了卓越的成就——嫦娥四号向地球传回了世界上第一张近距离拍摄的月背影图像。

有些人“上了天”，薛晖想做的，是让人工智能和安全“落了地”。

4 月 10 日，坐在雷锋网编辑面前的薛晖聊了这些故事。18 天后，阿里安全图灵实验室将 AI 图像识别技术应用在 AI 安全厨房解决方案，这个值守厨房的“AI 防火员”开启了薛晖梦想的第一步。

AI博士从“解放”鉴黄师起步，十年专注安全AI