河套 IT TALK——TALK 43:(原创)合成媒体的达摩克利斯之剑——深伪技术

河套 IT TALK——TALK 43:(原创)合成媒体的达摩克利斯之剑——深伪技术

技术的一体两面

最近ChatGPT和深度学习图像生成技术成为媒体讨论的热点话题。但硬币中有两面。技术本身是中立的,但善用技术还是用技术作恶,背后是仍是人性的躁动和考量。当技术在进步,但是人性并未赶上技术进化的速度,那么先进的技术就有被滥用的可能。今天,我们就聊一聊一种人工智能极具争议性的运用——深伪技术,以及我们应该如何去正视它。

什么是深伪技术?

深伪技术(英语:Deepfake)又称深度伪造,是英文“deep learning”(深度学习)和“fake”(伪造)的混成词,专指是通过使用人工智能算法,通过自动计算生成、篡改数据和媒体,特别是为了误导人们或改变原始含义的媒体合成方式。最常见的是基于人工智能的人体图像合成技术的应用。此技术可将已有的图像或影片叠加(Superimposition)至目标图像或影片上。深伪技术是合成媒体(Synthetic media)的一个子类。

Deepfake一词起源于 2017 年底左右,来自一个名为“deepfakes”的Reddit(一个美国的社交新闻聚合、内容评级和讨论网站)用户。他和 Reddit 社区r/deepfakes中的其他人分享了他们创建的深伪技术视频。其中绝大多数视频都涉及将名人的脸换到成人电影中女演员的身体上。2018年2月,r/deepfakes因非自愿分享色情内容被Reddit封禁。

看到这儿你可能会说,这不就是换脸嘛,并不是什么新鲜玩意儿。

换脸,确实不是什么新奇的玩意儿。亚伯拉罕·林肯 (Abraham Lincoln) 庄严而有力的肖像在今天看来是现存最知名、最古老的照片之一,其实也只不过是一幅伪造图片。林肯遇刺后,总统的“英雄式”照片非常少。所以一位肖像画家托马斯·希克斯在已故总统的印刷品上,将林肯的头像叠加在约翰·C·卡尔霍恩的身上——约翰·卡尔霍恩是恶毒的种族主义者和奴隶制支持者,与林肯观点完全对立。这种反讽的伪造照片,一个世纪后,才被摄影记者斯特凡·洛兰特 (Stefan Lorant) 发现。

尽管换脸不是什么新奇玩意儿,但深伪技术利用机器学习和人工智能的强大能力确实极大地降低了这个门槛,而且让人肉眼难于分辨真伪。而且,绝对不是换脸这么简单。那么,它到底已经发展到什么水准了呢?给大家看看一年前一家荷兰的深伪技术频道Diep Nep制作的一个演员摩根·弗里曼(Morgan Freeman)的视频,大家感受一下:

点击跳转观看视频

是不是真假难辨?我承认这有些吓人,但这还是一年前的技术,这种深伪技术不仅仅是换脸这么简单,它能完美契合模仿对象的声音,视频中人脸在说话时候表情细腻的变化以及光影变化的细节也堪称完美。一年过去了,但回看这段视频现在仍然让人刻骨铭心且毛骨悚然。

现在你应该明白了,深伪技术,不是简单的换脸,它是根据语音、声音、视频或照片的真实样本拼接在一起的算法组合创建的一些新的(不是真实的)东西,而且绝对有实力以假乱真。

深伪技术到底是什么技术?

深伪技术背后,核心能力就是两种深度学习的算法,一种是自编码器(Autoencoder),另一种是生成对抗网络 (GAN)。

自编码器

自编码器是由“深度学习教父”杰弗里·欣顿(Geoffrey E. Hinton,简称GE Hinton)等人研究出来的一种人工神经网络,在无监督学习中用于有效编码。

自编码的目的是对一组数据学习出一种表示(也称表征,编码),通常用于降维。最近,自编码的概念广泛地用于数据的生成模型。

简单来说,自编码器主要有两个部分组成:编码器用于将输入编码,而解码器使用编码重构输入。

最简单的自编码器形式是一个前馈的、非循环的神经网络,类似于多层感知器(MLP)中的单层感知器,用一层或多层隐藏层链接输入和输出。输出层具有与输入层相同数量的节点(神经元)。用一层或多层隐藏层链接输入和输出。其目的是重构输入(最小化输入和输出之间的差异),而不是在给定输入的情况下预测目标值,所以自编码器属于无监督学习。

对于多层神经网络的参数初始化问题,我们可以依次对每一层进行autoencoder。如下图所示,具体做法是首先按照上述方法确定第一层的权重参数,然后固定第一层的参数,对第二层的参数进行训练,以此类推,直到得到所有权重值。

例如,如果我们想创建一个演员像我们一样移动的视频,编码器会从我们跳舞的视频中获取动作,解码器会用演员的脸替换我们的脸,并让他们重现我们的动作。这里的关键是复制到新图像的选定动作(例如,体姿、手势、面部表情)。

由于算法是公开的,所以随着时间的推移,自编码器算法也在不停地发生演化和变种,比如:正规化自动编码器(Regularized autoencoders)、稀疏自动编码器(Sparse autoencoder )、降噪自动编码器(Denoising autoencoder )、收缩自动编码器(Contractive autoencoder )、具体自动编码器(Concrete autoencoder)、变分自动编码器(Variational autoencoder)、深度残差自动编码器(Deep Residual Autoencoder ),由于数量繁多,这里不再过多赘述……

生成对抗网络(GAN)

GAN是非监督式学习的另一种方法,透过两个神经网络相互博弈的方式进行学习。该方法由伊恩·古德费洛(Ian Goodfellow)等人于2014年提出。

GAN的主要结构包括一个生成器G(Generator)和一个判别器D(Discriminator)。生成网络从潜在空间(latent space)中随机取样作为输入,其输出结果需要尽量模仿训练集中的真实样本。判别网络的输入则为真实样本或生成网络的输出,其目的是将生成网络的输出从真实样本中尽可能分辨出来。而生成网络则要尽可能地欺骗判别网络。两个网络相互对抗、不断调整参数,最终目的是使判别网络无法判断生成网络的输出结果是否真实。

在使用GAN图像生成技术时,有些网站会把整个计算过程显示出来,我们能看到生成器和鉴别器两种人工智能算法相互对抗的过程。生成器,输入随机噪声并将其转化为图像。然后将这张合成图像添加到真实图像流中——比如名人的图像——这些图像被输入到鉴别器。起初,合成图像看起来一点也不像人脸。但是无数次重复这个过程,通过性能反馈,判别器和生成器都得到改善。如果有足够的周期和反馈,生成器就能生成完全不存在的名人的完全逼真的面孔。

由于算法已经被开源,所以随着时间的推移,生成对抗网络产生了非常多的变体,五花八门,比如:条件生成对抗网络(Conditional GAN)、深度卷积生成对抗网络(Deep convolutional GAN)、自注意生成对抗网络(Self-attention GAN)、变分自动编码器生成对抗网络(Variational autoencoder GAN)、变压器生成对抗网络(Transformer GAN)、流生成对抗网络(Flow-GAN)、原始生成对抗网络(Original GAN)、铰链损失生成对抗网络(Hinge loss GAN)、最小二乘生成对抗网络(Least squares GAN)、Wasserstein GAN、对抗性自动编码器(Adversarial autoencoder)、信息生成对抗网络(InfoGAN)、双向生成对抗网络(Bidirectional GAN)、循环生成对抗网络(CycleGAN)、大生成对抗网络(BigGAN)、SinGAN、进步生成对抗网络(Progressive GAN)、风格生成对抗网络(StyleGAN)……

除了上述两个图像生成技术之外,其他的深度学习技术也会可能会被用到,比如:卷积神经网络、递归神经网络、深度学习模型Transformer等等,这里不再一一赘述。

深伪技术都用在什么场景?

相对而言用的最多的场景就是所谓的“名人”成人电影,就是在成人电影中将女主角的头像更换为其他著名的女演员面孔(有报道称96%的深伪技术都用在这个上面了)。这种深伪视频的传播,诋毁公众人物形象,对名人名誉侵害造成巨大的困扰。

前几年在互联网上突然非常火的几款AI换脸的神奇App,也让很多人嗨了一把,只需上传一张照片,经过深度合成算法处理,就能轻易把自己的五官投到原本的演员脸上,秒变视频主人公,享受“参演”电影、电视剧、短视频的快感。然而,“AI换脸”的趣味性背后暗藏不少法律风险和侵权纠纷。

去年,杭州互联网法院审理了一起因“AI换脸”App利用深度合成算法侵害他人肖像权的案件,判定App开发者构成对原告肖像权的侵害。因不堪其扰,一些明星选择维权。2021年8月,刘昊然工作室发布声明称,有人利用“AI换脸”技术传播对刘昊然带有侮辱性的视频、截图,同时含有诽谤言论的聊天记录。该工作室表示已向警方报案。2021年9月,林俊杰因个人肖像被短视频博主用“AI换脸”技术制作了大量的鬼畜视频,起诉了平台及该博主,要求其赔礼道歉并索赔27.5万元。所以这两年,这些App迅速降温了。

深伪技术还可能会被用到政治人物的一些阴谋论的公开演讲中。相比于小电影,这种政治人物的言论危害性会更强,直接将影响公众舆论和大众情绪,甚至影响股市、操控选举、干扰经济,更甚者引发战争。

观看视频请点击跳转

在2017年SIGGRAPH会议上一篇论文“合成奥巴马:从音频中学习唇形同步”的论文引起更多人的关注。华盛顿大学的研究人员开发出一种技术,可以根据前总统巴拉克奥巴马每周讲话的几个小时视频片段,将不同的词逼真地放入他的嘴里。他们使用循环神经网络研究奥巴马的嘴巴如何运动,然后他们操纵他的嘴巴和头部运动以使其与重新排列的单词和句子同步,从而创造出新的句子。SIGGRAPH的会议主席、Cogswell 理工学院院长杰罗姆·所罗门( Jerome Solomon )指出,任何新技术都可以用于好事或坏事。显然他已经看出来这个技术非常容易被用于邪恶目的。

英国的一个初创公司Synthesia搞了一个工具,创建了一系列深伪形象模版,这都是人工智能化身的“数字孪生”,这些形象都是专业解说员的形象外表,可以表达120种语言和口音,提供超过85个不同性别年龄、种族、声调和时尚风格的角色供选择。客户只需要输入想表达的话语文字,Synthesia工具就可以由客户选中的数字解说员来朗读。整个过程就需要2分钟。如果想用这个工具制作假新闻,简直是易如反掌。

现在还出现了利用深伪技术进行合成身份欺诈的案例,模拟当事人的形象和声音,来达到支付欺诈的目的。

当然,必须要承认,深伪技术,也可能会有正向的运用,比如用在电影特效中。在2019年金凯瑞主演的《闪灵》里面,使用了深伪技术。将旧版《闪灵》中杰克·尼尔森的脸完美替换为金·凯瑞的脸。

观看视频请点击跳转

深伪技术也可以让历史上的人物与我们对话。代理机构 GS&P 在佛罗里达州举行的达利艺术展广告宣传中,通过从旧视频采访中提取 6,000 多帧并通过 1,000 小时的机器学习处理它们,然后将学习结果叠加到替身演员的脸上来创建了一个魔幻的效果。让达利亲自给自己的艺术展站台,做宣传,以帮助观众对艺术家和其作品产生更为深入的共鸣。

如何应对深伪技术带来的伤害?

近些年,深伪技术已经发展到越来越真假难辨的地步,极大地模糊了事实与虚构之间的界限。目前,针对深伪技术,还没有好的方法遏制这种技术的运用和虚假信息的传播,随着深伪技术视频在互联网上数量的蔓延和滋生,很有可能未来会充斥网络,彻底削弱人们在网络上辨别真伪的能力,让人们淹没在人工智能生成的幻象世界中。当然,一旦传达明显错误信息而导致人们意识到被欺骗,也会让人们彻底失去对网络信息的信任。不管怎么讲,深伪技术都是一颗悬在头顶的达摩克利斯之剑。

应对深伪技术,应该有两个手段,一个是技术手段,一个是法律法规的手段。

Deepfake 检测作为一个研究领域是三年多前开始的。早期的工作重点是检测视频中可见的问题,例如没有眨眼的深度换脸。然而,随着时间的推移,假货在模仿真实视频方面变得越来越逼真,并且越来越难以被人和检测工具发现。现在有一种研究方向,就是通过对比deepfakes与真实视频相比的差异。从视频的各个帧中的面部提取基本数据,然后通过并发帧集跟踪它们。这能够检测到从一帧到另一帧的信息流中的不一致。检测技术也对假音频检测系统使用类似的方法。但魔道的对抗是相对的,检测系统的升级,也必然要随着深伪技术的升级而升级。

法律法规手段,也是另外一项重点。去年,国家互联网信息办公室、工业和信息化部、公安部联合发布了《互联网信息服务深度合成管理规定》,为深度合成服务划定了“底线”和“红线”,强调不得利用深度合成服务从事法律、行政法规禁止的活动,要求深度合成服务提供者落实信息安全主体责任。该规定的出台,对规范“深伪技术”有很大的促进作用。

除此之外,我们都知道吸烟有害健康,所以法律法规规定,所有的香烟外包装上都印刷着“吸烟有害健康”。开个脑洞,是不是深伪技术也应该有类似的管理手段呢?如果有是不是从某种程度上,减弱深伪技术给人带来的危害呢?