雷锋网按:作者系机器识别领域从业人员。
(图片来源:3lian.com)
近日,文化部将19家不合规定的直播平台列入查处名单。
作为新型的社交互动平台,网络直播与传统的视频网站不同,当用户上传内容后,传统的视频网站会进行审核,符合标准后才可上传成功,而网络直播都是实时播出的,如果有人在网上传播不良信息或者发布违规内容,即使被查处,也是播出之后的事情。
虽然,大多数直播企业会选择人工审核的方式对直播内容进行实时监管,但是在过去的一年多里,“直播造人门”、“直播脱衣门”等事件仍然频繁发生。某直播平台负责人曾表示,视频直播从技术不需要“上传”这个步骤,当手机按下摄影功能键,云端会同步抓取、同步存储、同步传递,“延迟不会超过2秒”。在这个过程中,平台面临的困惑是“无法掌控直播下一秒会发生什么”,所以只能依靠人力进行24小时轮班审核,但是人工审核存在的问题较多,直播内容监管风险依旧存在。
第一:网络直播规模庞大,人工审核成本高
2015年直播平台接近200家,用户数量已经达到2亿,大型直播平台每日高峰时间会有3000-4000千个直播“房间”同时在线,用户数可达两三百万人次,如果全部用人工对4000路视频同时进行审核,为了保证“无漏网之鱼”,至少需要上百人同时工作,并且每位工作人员需要配备1-2台监控设备。其实直播视频内容的违规比例占比不高,仅0.04%,甚至更低,但为了做到“无漏网之鱼”,企业需要投入大量的人力、物力和财力进行监管,运营成本压力增加。
第二:直播流量聚焦夜晚,人工审核效率低
网络直播白天跟晚上的“房间数”不同,目前,白天直播流量峰值是数百路视频,晚上可以飙升到数千路。但“三班倒”的审核人员,夜晚疲劳,人眼识别精确度降低,出现误判漏判的概率上涨,审核效率降低,难以达到网络直播的内容监管需求。
因此,网络直播行业的内容监管不能只依赖人工,可以采用机器识别结合人工审核的新型审核模式。
目前,据我所知的,国内能够为网络直播企业的违规内容过滤提供这种模式的主要有图普科技的“智能审核机器人”,阿里的“阿里绿网”、腾讯的“万象优图”等。
机器识别原理的图像识别技术是如何像人脑一样认识、学习图像特征的呢?其核心是深度学习理论(Deep Learning)。深度学习就是人工神经网络(Artificial Neural Network,以下简称 ANN)。要了解 ANN,让我们先来看看人类的大脑是如何工作的。:
(人脑的视觉处理系统 via:Simon Thorpe)
上图所表达的,就是人理解外界视觉信息的过程。
从视网膜(Retina)出发,经过低级的 V1 区提取边 缘特征,到V2 区的基本形状或目标的局部,再到高层的整个目标(如判定为一张人脸),以及到更高层的 PFC(前额叶皮层)进行分类判断等。也就是说高层的特征是低层特征的组合, 从低层到高层的特征表达越来越抽象和概念化,也即越来越能表现语义或者意图。
深度学习,恰恰就是通过组合低层特征形成更加抽象的高层特征(或属性类别)。然后在这些低层次表达的基础上,通过线性或者非线性组合,来获得一个高层次的表达。此外,不仅图像存在这个规律,声音也是类似的。
现在来看深度学习的简易模型。
传统的神经网络与深度神经网络
深度学习的一个主要优势在于可以利用海量训练数据(即大数据),在学习的过程中不断提高识别精度,但是仍然对计算量有很高的要求。而近年来,得益于计算机速度的提升、大规模集群技术的兴起、GPU 的应用以及众多优化算法的出现,耗时数月的训练过程可缩短为数天甚至数小时,深度学习才逐渐可以用于工业化。
对于开发团队来说,做该领域的产品困难在于如何获取大规模已标注数据、集成有 GPU 的 计算集群以及针对自己的项目调参数,团队需要不断地输入新数据,持续迭代以提高机器识别准确率。
利用深度学习算法设计的智能程序能通过快速迭代拥有强大的学习能力,并与视频直播、社交网络、云计算等领域企业合作,积累大量图片和视频数据,克服智能程序设计中的大数据壁垒,得到高精度的智能识别结果。
例如“鉴黄机器人”,通过将大量人工标注好的色情图片和正常图片来训练机器认识、学习这两类图片的特征,然后自动提取出可能是色情图片和正常图片的特征,当机器再“看到”相似特征的图片时,即可自动识别出来,当数据量越大,提取特征越准确,识别精确度越高。上文提到的图普科技的审核原理也是如此。
因此,新型审核方式的原理就是:
企业根据自身需求,利用自动截图程序对直播画面定时(建议6-10s)进行实时截图,发送到图像识别云服务平台,机器自动识别后将结果分为确定和复审两部分,确认部分的识别精确度达到或超过人工,无需复审,对于复审部分,机器会根据可能性排序,人工再根据概率从高到低来审核。
相对传统的纯人工审核的模式,这种新型审核模式的优势主要在于:
第一:改变传统付费模式,成本更低,计费更灵活
直播企业只需要按图片调用量付费,比如直播平台某日有推广活动,导致流量较大,需要审核力度较大,付费较多,但活动结束后,审核量减少,费用也会随之减少,不需要固定每日的付费额度。
第二:机器识别稳定,效率高
机器识别模型可以针对不同的应用场景训练机器,对于识别结果的确认部分的审核精准度达到99.5%,超过人眼准确度,需要人工复审的部分仅占图片总量的5%,随着模型的不断优化,精确度还会继续提升,复审率也就继续降低。
并且成熟运作的智能审核机器人的图片处理量日达3亿张以上,单张图片响应时间小于0.2s,7x24h全天候服务。但是,如果纯人工审核3亿张图片,如果按照人眼每小时审核2万张左右的图片计算,则需要大约625天不停歇的工作才能审核完毕,相对人有限的精力,不停运转的机器明显更加稳定可控,效率更高。
第三:机器识别更简单安全
网络直播采用人工审核时,需要给每个审核人员配备相关设备及空间,因此企业需要投入更多的运营成本,尤其对于创业的网络直播企业,需要承受的经济压力更大,而机器识别只需要通过API调用即可直接使用服务。
此外,每个企业都有专属的ID账号,其所有调用数据都会被定期清除,不会长期存留API界面,不同企业之间数据是隔离的,无法调看非本ID的数据,不用担心企业信息泄漏,安全度更高。
据文化部透露,下一步将重点在经营主体管理、事中事后监管方面对网络表演关键环节进行规范,以及建立违规网络直播平台和违规“主播”警示名单和黑名单制度,加强行业自律。
所以,网络直播企业在利用机器识别提高内容监管有效度的同时,还要加大对主播素质培养和监管力度,守住经营的底线与红线。