2009 年,主要从事数字信号和图像处理研究、博士刚刚毕业的薛晖拿到了阿里巴巴的 offer,那一年淘宝的全年交易额已经达到 2083 亿元,薛晖激动地搓搓小手,阿里巴巴的网站上有大量未被挖掘利用的数据,比如照片、视频、语音以及非结构化的文本,如果能让机器做到看清和读懂这些信息,一定是一件非常有意义和有价值的事。
薛晖的构想很美好,要将图像识别的技术应用到阿里巴巴的搜索、广告以及安全审核中。然而,正经如薛博士,万万没有想到,公司先给了他一项重要的任务:解放千千万万奋斗在电脑前的鉴黄师们。
“我来的时候,要解决的最大问题是淘宝的审核问题,当时淘宝有很多违规图片,色情图片或是其他违法图片。鉴别文字时,我们还能通过关键词或者变体词汇来审核,但是对待图片,完全没有能力,都靠人工。”薛晖对雷锋网说。
所以,接下来雷锋网要讲述的是十年 AI 大佬如何从“解放”鉴黄师起步的故事。
【阿里安全图灵实验室负责人 薛晖】
有些学霸选专业,哪里分数高,就去哪里。
十年前,阿里巴巴搜索部技术很牛,于是,薛晖雄心勃勃地来到搜索部,并在 2010 年,与两个男同事提出了一个非常创新的方案:将搜图应用在电商场景,比如用户搜索时设置颜色导航,只要搜一件格子衬衫,蹦出一个调色板,点选颜色后,就会出来颜色一样的格子衬衫,他们甚至提出了现在非常流行的“以图搜图”的设想。
想象很美好,现实很残忍。那会,多数人手里还拿着诺基亚,超过 1 M流量,可能要被运营商收走 5 块钱,这样“超前”的业务理念夭折了。
深度学习技术和高性能计算服务器并未成熟,移动端的各类应用也未普及,薛晖还觉得,自己对业务痛点和场景的理解不足,对技术天花板的判断不足,特别是当两者遇到矛盾时找不到可以妥善解决的方法。
随着淘宝业务量的大量级提升,包括商品和社区板块的 UGC 信息量增长很快,原有的规则加人工的审核模式无法满足需求,也就是说,几十个淘宝小二(鉴黄师)面对数据海量增长,筋疲力竭。阿里内部愈发发现,安全更加重要,以淘宝安全为基础,阿里集团安全部正式成立。
这个部门吸引了薛晖的注意力。
学霸内心一盘算,阿里是一个典型的技术要与业务高度结合的公司,要把之前的技术推下去,得有应用场景啊!鉴于之前在搜索部初试反击黄赌毒有一定效果,薛晖觉得,自己推行的技术在安全领域可能比较容易落地,于是,他主动申请转岗到阿里安全部。
薛晖把黄图鉴别和以图搜图的技术用到了这里。最早,他采用的是利用黑样本图片找到类似图片的方法,并逐渐加上了 OCR 和人脸识别技术,当然,这些都是基于传统技术,当初并没有深度学习技术的应用。
比如,当时薛晖等人是这样区别一张色情图片与正常图片的:
有大面积的接近皮肤颜色的像素
像素之间是有连通性而不是很分散
纹理特征接近皮肤
存在类似躯干比例的矩形或椭圆
皮肤区域是否集中在人脸以下的特定位置等
所有这些特征的权重组合通过机器学习模型决定,也因此,机器通过颜色、纹理、形状来识别黄图,大量肉色的沙发、地板会被“无辜牵连”,机器鉴黄也只能识别正经脸的苍老师,动漫版、大幅度倾斜的小黄图无法识别。
薛晖还面临刚起步需要“证明自己”的问题——这项业务看起来还没有那么重要,大家不相信他们可以做出来什么,所以薛晖等人要不到研究的钱和资源。比如,他们要想申请一台几万块的物理训练机,要把报告打到高层老板那里。
要想证明项目可行,就要提效省钱。
虽然上述首次使用的基于统计模型的机器学习方法现在早已被迭代,但在过去,它能把效率提升几十甚至上百倍。“当时全人工审核没法筛选图片,降人力是最关键的,也是最直接的。”薛晖说,几年间,数据量呈线性增长,刚开始负责人工审核的小二是几十个人,现在依然是几十个人。
薛晖一边解放着人肉鉴黄师的人力,一边迎来人工智能发展的大势。
2016 年,Alpha-go 战胜了李世石,谷歌也正式发布了基于神经网络的机器翻译系统,神经网络通过各种应用正在重塑图像识别、自然语言处理等领域。同一年,阿里安全部将薛晖所在的整个基础算法团队更名为“阿里安全图灵实验室”。
薛晖忙着将负责业务的模型往深度学习上的迁移,一边与团队一起将人工智能技术落地到更多的场景,如知识产权、身份核验以及各种基于人脸识别技术的 IOT 应用等。
比如,他们将这套鉴黄体系以产品形式推了出来——有“AI 鉴黄师之称的阿里巴巴“绿网”用人工智能识别网络上包括色情、暴力在内的违规信息,通过人工智能、深度学习等技术,识别千万张正常图片与色情图片,最终生成一个智能鉴黄模型。
淘宝店铺迈向实人认证也是其中的应用之一。刚开始,上传到后台的信息都由人工比对,两个人是不是同一个人?身份证号码是否和人匹配?2016 年,实人认证进入了完全自动化时代,很少有人知道,一个机器大脑正在处理这个庞大的信息库。店铺用户上传的所有信息经过机器之手,人类却无权调用。
薛晖所在的团队在证明可以“提效省钱”的基础上,面临了“赚钱”的挑战。
上面提到的“绿网”是在阿里提出生态战略的背景下被阿里云“集成”的技术,这款提供内容安全、实人认证的云服务产品推出伊始,瞄准的是阿里体系的生态企业,现在也包括阿里云上的客户。
“本来对内服务的产品,走到到一个充分面向市场竞争的环境,一下子还不太适应。”薛晖发现,在阿里内部场景积累的经验和模型并不可以直接拿来使用,尤其是面对云上形形色色的非电商行业客户。从阿里内部跳出来看,“绿网”的竞争对手并不是传统意义的巨头企业,而是各类做计算机视觉、自然语言处理的独角兽和创业公司。
没什么别的好办法,只有不断在标准化、通用性、技术先进性上打磨产品。对于“被集成”的绿网,要靠业绩说话,薛晖对雷锋网透露,绿网现在每年为阿里云贡献了不少收入。
证明了自己对业务的重要性后,阿里安全图灵实验室从二十几人一下跃升到几十人的规模,并且在北京建立了新的小分队,薛晖不断在北京和杭州间来回,让新团队跟上节奏。
他们的节奏不得不提起来了。
对薛晖而言,更多技术的落地并没有那么容易。光拿下阿里杭州园区的门禁,他们就费了一番力气。园区的行政部门的同事对使用门禁刷脸有顾虑:
识别率到底高不高?园区里这么多人,误识别了怎么办?
无人值守这些人脸识别设备时,会不会有人就拿着照片或者手机屏幕直接破解?
上班人流高峰期,过人脸识别这一关快不快?不要大家都挤在一起上不了班。
最重要的是,你让我们增加高清摄像头,成本会不会蹭蹭上涨?
薛晖带着人一步一步去说服,通过一些数据和 ROI 的分析说服了业务愿意试点,一开始是在一个卡口上进行,为了取得最好的调试效果,工程师们自己扛着摄像头到现场进行参数调试和角度安装,甚至要考虑安装在室外的闸机是否受到环境光照影响,还要人工审核、分析每一个错误识别的案例,到底哪里出了幺蛾子。
把摄像头放在线下的外部商场里,提供线下新零售的安全解决方案更难。
首先是成本控制问题,不能用太贵的摄像头,还要解决人群、人体、货架的遮挡,每个店的地理环境甚至都有影响,比如,有些店是长廊形式,但有些店面是完全开放的,甚至没有明确的边界,入口和出口的数量不一,摄像头摆放的角度和数量都有讲究,而这些都只是为背后的“安全 AI 大脑”助力的触手。
薛晖等人还要解决的是“人”都很难解决的问题。
人工智能技术在很多场景能应用好依赖于几个条件:第一,场景比较封闭,是一个比较容易定义的问题。第二,有大量的标注数据。第三,计算能力。
线上结构化的信息可以告诉你,那些是垃圾账号,哪些注册地和登陆地时常修改,客户下单的正常、非正常路径是哪些,依靠这些数据,AI 可以洞悉一切不安全。但是,到了线下,小偷可以从任何一张门进来,买货之前可能有无数正常的路径,还可以躲在各种遮挡背后。
上面那些条件很难成立,薛晖只能再次向实际的保安或安全人员学习抓小偷的经验,再用机器实现。
“现在我们有团队直接在商场里点对点做,就是不停地去调现场的问题,不停地跟他们的店长、店员、安全人员沟通,这是一个非常复杂的问题。”薛晖说。
除了内容安全、知识产权保护、实人认证与身份核验、安防以及新零售的线下安全,薛晖还想把 AI 推到更垂直的安全场景中。
3 月 30 日 18 时,四川省凉山州木里县一个名为雅砻江镇立尔的村落村,发生严重的森林火灾。30 名灭火员牺牲,其中 27 名消防员,最小的才 18 岁。
薛晖认认真真想了两天,以前开玩笑说要用 AI 解放全人类,这种高危的场景下更应该有 AI 的应用。比如,火灾防控也会涉及到很多图像和视觉的问题,是否有更好的制定战术控制火势的方法?
“30 个人员牺牲,这代价是非常大的,我女儿小学班的家长里有人是消防员,曾经组织过小学生和家长去参观消防队怎么工作,所以我也特别想到这个点,这是非常重要的工作,我们身边也会有人在做这件事情,我有时候在想,这属不属于 AI 安全或者是安全 AI ,让我们今天从事的工作更安全,这也是保护人。”薛晖说。
十年前,薛晖隔壁实验室的同学现在已经做出了卓越的成就——嫦娥四号向地球传回了世界上第一张近距离拍摄的月背影图像。
有些人“上了天”,薛晖想做的,是让人工智能和安全“落了地”。
4 月 10 日,坐在雷锋网编辑面前的薛晖聊了这些故事。18 天后,阿里安全图灵实验室将 AI 图像识别技术应用在 AI 安全厨房解决方案,这个值守厨房的“AI 防火员”开启了薛晖梦想的第一步。