本文作者:雷锋网宅客频道主笔,李勤。
说到阅片无数,你一定记得首席鉴黄师唐马儒。
如果一天同时有一万个唐马儒实时在线鉴片,世界将会变成怎样?
是的,那画面太美我也不敢想。不过,9月15日,在百度云智峰会的分论坛“视频智能技术与平台”上,百度云高级产品专家黄锋在视频 AI 产品发布中介绍了“复制10000个唐马儒”的功能。
到底怎么回事?
现在大家直播玩得666,短视频也十分火热,摄像头还到处都要,这造成了一种严峻的局面:视频量海量增长,谁知道里面有没有混入一些黄赌毒等奇怪的东西。
个人可能看得开心(或者不开心?),平台要承担相应的责任。于是,这些企业很烦恼:现在群主都可能被拉下水,何况我们平台?!
于是,百度云就趁机利用视频人工智能技术推出了内容分析 VCA 、内容审核VCR 和封面智选 VCS 。
我们先从内容分析 VCA说起 。
除了视频量比海深,之前很多企业依靠的是人工审核标注团队,所谓人工审核标注,就是一堆勤劳的唐马儒不停地鉴定视频,给视频打上标签。如果只是筛选出黄赌毒也就罢了,要是要做内容分类、推荐怎么办?
唐马儒的身体不只被掏空~人力成本太高,企业请不起这么多唐马儒,毕竟人家在用生命工作,很贵的。
这时,AI 技术派上了用场。
AI 版唐马儒拿到一个视频后,把视频分为了几层:镜头、帧和语音。然后,它开始了视频场景识别、人脸识别、字幕识别、物体识别,同步进行语言识别,并将语音识别的结果与之进行交叉认证,从而精准地判断这个人在什么场景下在干嘛,他周围有些什么物体。
黄锋称,这些识别模型使用了 1000 万+训练数据,能识别 5000 多个场景与40000 种物体,并且用上了百度的人脸识别技术,还有百度百科公众人物库与自定义人脸库。
也就是说,他不仅能从海量视频中检索出鹿晗,还能识别这是一个在邮筒边拍照的鹿晗,还是在跳舞的鹿晗。
或者,是一个在中国工作拿着仙女棒的波多野结衣或在日本和道具一起加班的波老师。
黄锋说,对比人工,VCA 分析效率提升5倍,日吞吐能力相当于10000人,分析成本降低了 50%,召回率提高 10 倍。
下面来到了你们最关心的鉴黄,哦不,内容审核 VCR 。
还是按照内容分析VCA 一样,AI 唐马儒讲视频分层成了帧和音频,然后将两者(图像)与视频黑库中的图像指纹和声纹指纹进行对比,AI 会自动对这个视频进行色情识别、暴恐识别、政治人物识别和广告识别。
(看上去,视频黑库其实就是小黑屋?)
视频中的画面进行文字识别得到字幕,视频中的语音通过长语音识别也变成文字,这两部分文字都再进行文本审核。
问题来了,假如什么话都没有,画面也不暴露,一言不合就开车,只剩下不能描述的哼哼唧唧的声音怎么办?
黄锋表示,不要担心,我们 AI 识别还有“娇喘模式”,能识别这些不可描述的声音。
对这些视频内容进行严格的审核后,AI 唐马儒有三个处理模式:通过、封禁、人审。
所谓人审,就是你藏得太深了,连本 AI 都搞不定,让我家真正的唐马儒出马吧!
黄锋指出,VCR 还有更多的用武之地:
视频去重:两个清晰度不一、但内容相同的视频,当然是取其一了。
广电监播。
侵权检测:纳尼,你怎么是个盗版,杀无赦。
雷锋网宅客频道编辑也不想承认这一点,但是没办法,你去超市买个西红柿都会选更好看的那一个啊!!!
黄锋称,视频封面质量对用户点击影响很大。
也就是说,平台当然是要选更具有精神内涵和和谐美感的封面了!
他向雷锋网介绍了 VCS 封面选图过程,通过镜头检测——主/客观质量过滤——内容相关性三个步骤,AI 帮助一个视频选出了自己卖相最好的那一张封面照。
(这个过程不亚于女生从一堆自拍照里选出一张发朋友圈吧?)
我们来看一下以前的封面选图效果和VCS 的选图效果对比照:
[图1]
[图2]
[图3]
[图4]
图1和图3均是以前封面选图的结果,呈现局部或者单一图像,图2和图4是VCS的选图,图2呈现了人和宠物的关系,图4展现的是完整的车。
其实,听到最后,宅客频道编辑弱弱提出了一个终极疑惑:这和百度云是什么关系?
黄锋说,这是百度云接入的视频 AI 能力,通过线上沟通、定制方案、测试对接,最后就能正式上线。
好吧好吧,你说什么都对。
反正听到“娇喘模式”那一节时,雷锋网编辑已经笑到抽搐不在线了。