Deepfake负面应用正在愈演愈烈。
上个月,“一键脱衣”AI(DeepNude)盗用社交网络自拍照生成裸体刷爆网络,短短几天,致使68万女性受害。近日,再次有外媒爆出在Reddit社区中,一个名为r / GeneratedPorn Subreddit正在散播大量色情淫秽作品,而制作这些色情作品的正是造假软件—Deepfake。
这些虚假的色情作品已在Twitter,Facebook,Reddit多个社交网络,以及XVideos,Pornhub等色情网站上被疯狂传播。
不同于DeepNude利用社交网络中的私人照片,这次Deepfake造假软件利用的是现有的成人色情作品。创建者认为在原有色情作品上,利用Deepfake生成不存在的人脸进行二次创作可以避免法律上的惩罚和道德上的谴责。
但事实可能并非如此,目前Reddit、XHamster等多个网站已经将该软件封杀,并强调,
Reddit网站政策禁止非自愿色情内容的分享和传播,包括Deepfake作品。
Deepfake的深度造假能力到底有多强?它除了支持换头、换脸、对口型,以及脱衣外,甚至还可以生成一张完全不存在的人脸。像这样,连头发丝都显得逼真自然。
然而,正是这项原本被广泛用于影视业的逼真造假技术,被一名博士生用来创建了大量淫秽视频。
这款Deepfake造假软件被命名为GeneratedPorn,简称GP。GP所利用的色情数据集全部来自于捷克的一家色情制造公司——Czech Casting。
多年来,该公司拍摄了成千上万的女性视频,并托管在共享网站支持免费下载。视频中每个女性都被数字编号,并站在白色背景下进行360°无死角拍摄,甚至包括局部生殖器官的镜头特写。
这些高清、无死角的视频内容非常符合机器学习算法的训练要求。GP的创建者从中提取了7500张图像,他说,
之所以选择该数据源是因为,生成式对抗模型(GAN)需要学习生成对象类的图像结构,如果图像在结构上相似,则模型可以了解有关对象类的更精确的细节,比如精确到脸上的酒窝或雀斑,这样可以获得更高质量的结果。
GAN,全称 Generative Adversarial Networks ,是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的方法之一。该模型分为生成模型和鉴别模型,两个模型在相互博弈中,可以获得逼真的图像输出结果。
继2016年GAN首次被提出之后,英伟达在此基础上研发出了StleGAN,并在2019年升级为StyleGAN2.如之前所说,StyleGAN2在生成人脸,尤其是生存逼真且不存在的人脸方面已经达到了最高性能,更重要的是,该模型已经在GitHub开源。
https://github.com/NVlabs/stylegan2
GP创建者表示,它利用的就是开源的StyleGAN2模型,并用色情数据集加载到其中进行训练。这一过程与其他换脸Deepfake相似,但不同的是,GP使用的不是一张人脸多种表情组成的数据集,而是多个数据集中提取的数据。
同时,他也强调虽然GP生成的色情内容非常逼真,甚至肉眼看不出任何破绽,但它生成的是不存在的人脸。
今年9月份,这位博士生在Reddit上开设论坛,开始炫耀其用GP软件生成的色情作品。按他的说法,在创建GP之初,已经曾考虑过道德层面的问题了。
最后之所以选择现有色情作品作为训练数据集,部分原因也是出于道德层面的考虑。
这位博士生是一位计算机专业的学生,同时也一位AI技术狂热爱好者。他说,
这一切的开始都是出于对技术的好奇和热爱,尤其是转向生成色情作品以后,这是一项非常酷的技术。
一开始,他计划制作一个OnlyFans,提供定制化的AI裸体视频,但是这一想法遭到了好友的反对,因此,他将目标转向了色情公司的作品集。在他看来,利用成人色情作品,并切换成不存在的人脸图像,创建的色情图像可以避免道德上的谴责。
但事实可能并非如此。尽管是成人作品,但涉及到的女性并未给与授权,因此依然属于非法盗用。此外,其数据集所属公司Czech Casting正在面临刑事诉讼。
警方指控该公司通过贩卖人口和强奸来非法获取女性色情图像和视频,并勒令其向22名视频中的女性支付近1300万美元的精神赔偿。同时,其创始人也正被联邦调查局(FBI)通缉。
而他对此并非不了解,对此,他解释了两点:
一是要通过算法生成完整的裸露身体,需要更多真实且裸露的图像和视频,而Czech Casting的视频无疑是最佳资源。
二是有些女性是专门从事这项工作的,我无法通过图片判断其背后的故事,因此只能假设这些资源是可以利用的。
此外,虽然一再强调已经尽力在规避道德问题,但他还是在XVideos,Pornhub,XHamster,Twitter,Facebook多个网站上开通了个人账户并分享其色情作品。
目前,多个社交平台已经将其账号封禁。其中,XHamster已删除GP用户资料的,同时也表示,
这些类型的内容确实属于灰色地带,我们需要与自己的机器学习团队以及TOS团队一起审查,以确定该如何评估和预防。
除了GP,DeepNude创建者也是出于对技术研究的热忱。
但无论是出于什么原因,他们的做法确实滥用AI技术产生了恶劣的影响。而且如果从技术的角度来讲,他们应该处理好数据隐私问题,包括数据集授权以及社交网络分享。
这一点可以借鉴Facebook的做法。
2019年,Facebook为应对社交网络中充斥的色情视频造假问题,发起了Deepfake挑战赛 (Deepfakes Detection Challenge)。
该挑战赛的所用数据集就包含了100,000张色情演员的表演视频,供研究人员使用。但重点是,该数据集已付费并获得了授权,同时技术测试内容也禁止任何社交平台分享。正如数据科学家乔杜里(Chowdhury)所说:“在未经授权的情况下使用数据库图像的AI是不道德的”。
但事实上,除了专业机构外,大部分利用AI生成的虚假视频均未获得授权,而且其中色情视频占比最高达到了96%。据了解,Facebook托管在Kaggle的色情数据集也曾多次被盗取。(Kaggle是为开发商,数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的专业平台)
正因如此,Deepfake也逐渐沦为了一个臭名昭著的造假软件。为遏制虚假内容的生成,Facebook的努力已经初见成效(识别准确率可达 82.56%)。但要想完全关上潘多拉魔盒,还需要更多企业、学界以及开发者的共同努力。
引用链接:
https://www.vice.com/en/article/bjye8a/reddit-fake-porn-app-daisy-ridley
雷锋网雷锋网雷锋网