HIT 16: 生成式 AI 版权风险探讨

HIT 16: 生成式 AI 版权风险探讨

2023-05-05

作者:高玉光 北京市信利(深圳)律师事务所 2023/05/04于深圳
#本文仅代表作者观点,未经作者许可,禁止转载#

什么是生成式AI?

生成式AI指的是一类人工智能(AI)算法,它根据训练过的数据生成新的输出。与传统人工智能系统旨在识别模式和做出预测不同,生成式AI有广泛的应用,主要包括: 1、图像: 生成式AI可以在现有图像的基础上创建新的图像,比如根据一个人的脸创建一个新的肖像,或者根据现有的风景创建一个新的风景。2、文本: 生成式AI可以用来写新闻文章、诗歌,甚至脚本。它还可以用于将文本从一种语言翻译成另一种语言。3、娱乐: 生成式AI可以创造新的视频游戏、电影和电视节目,使内容创作者更容易接触到新的受众。[2] 比如自然语言处理工具ChatGPT,这是一种用于处理序列数据的模型,通过连接大量的语料库来训练模型,这些语料库包含了真实世界中的对话,使得ChatGPT具备拥有语言理解和文本生成能力。与之类似,谷歌工程师使用1.6万个CPU打造了一个深度学习网络,用来指导计算机画出猫脸的图片。当时他们搜集了来自网络上的1000万张猫脸的照片,AI利用这个网络生成了一张非常模糊的猫脸。

生成式AI“创作”原理是什么?

以ChatGPT为例,我们知道互联网搜索引擎,如谷歌、百度等,能够进行大量的数据库查找,并提供一系列可能会回答你查询的匹配项。ChatGPT的强大功能在于能够根据其接受过训练的大量文本数据生成所谓的语料库,用以解释特定查询的上下文和含义,并以语法正确的自然语言生成相关答案,从而能够以类似人类的方式就几乎任何话题进行有效的交流。其原理在于AI本身有一个知识库,这个知识库接受了来自书籍、互联网、新闻、小说、科技论文期刊及其他数据等作为训练材料。这些训练材料不断更新并持续输入到上述知识库。ChatGPT的核心组成部分是一个很深的多层神经网络,这个神经网络使用了一种称为“Transformer”(转换器)的架构,这个架构允许模型同时处理多个输入,并能够注意到输入之间的关联性。通过大规模训练AI神经网络来学习语言模型,然后使用这个语言模型来生成自然流畅的文本或完成其他自然语言处理任务。[3] 为了能自我提升,ChatGPT同时应用一种称为生成式对抗网络(GAN)的深度学习来创建新内容。GAN由两个神经网络组成: 创建新数据的生成器和评估数据的鉴别器。生成器和鉴别器一起工作,生成器根据从鉴别器接收到的反馈改进输出,直到生成与真实数据难以区分的内容。为了生成高质量、多样性和流畅的自然语言文本,ChatGPT还应用循环神经网络(RNN)、卷积神经网络(CNN)及注意力机制(Attention)等深度学习技术。换句话说,AI创作的原理是:对人类输入的指令或问题,AI基于知识库中的素材(客观事实)利用算法生成一个预测答案,人类如果认为答案有偏离则进一步输入具体指令,AI利用算法再生成一个修正答案,如此反复,AI最终生成一个让人类较为满意的答案模型。在反复试错及改进过程中,AI会总结人类指令与生成模型之间的规律,并将其作为今后的“行动纲领”。

“创新”OR“抄袭”?

笔者认为,从知识产权角度,创新可以分为组合式创新、转用式创新、衍生式创新、开拓式创新。组合式创新指的是将现有素材或技术组合起来,产生一种新的素材或技术;例如铅笔和橡皮是现有素材,将两者组合在一起生成一端带橡皮的铅笔。转用式创新指将某一产品的素材应用到另一产品用途中,如将飞机的主翼应用到潜水艇上作为潜水翼。衍生式创新是最为常见的创新形式,指将原有技术做微小的改进使其性能更佳,如将手表的指针添加荧光材料,使其夜间可视。开拓式创新是指前所未有的重大创新,如汽车、电话机、电视机、电脑及互联网等的发明。

如上所述,AI是利用人类现有知识库素材利用算法生成模型。所以,AI在训练和学习过程中,会不可避免地使用人类现有作品,如果该种行为不符合法律规定的合理使用情形,则必然会存在侵犯他人知识产权的风险。而AI在“创作”图像、文字或电影电视作品时,是根据素材、模型及反馈机制总结规律,最后生成“作品”,该作品是人类智力成果的“拼凑”或“仿制”,即AI目前的“创作”属于组合式创新或转用式创新,其离不开人类素材库这个框框。至少在现阶段,AI还无法完全摆脱人类的智力成果做出衍生式或开拓式的创新。而前述组合式创作或转用式创作可能具有一定新颖性,但站在相关领域一般消费者角度来看,这种创作可能是显而易见的,不构成真正的创新。但AI作品中如果包括了他人在先的作品或作品核心部分,甚至包括了他人的隐私或商业秘密权,则无疑会存在侵权的风险。例如前不久,马里兰大学和纽约大学的研究团队进行了一项研究,对DALL-E2、Stable Diffusion等模型生成的图片与训练数据中的图片进行了对比。结果发现,在生成图片中,有约1.88%的图片和训练集中的某个图片相似度超过了50%。显然,这可能构成对原图片著作权中“改编权”的侵犯。此外,如果将这些生成的图片在网上进行传播,还可能构成侵犯“信息网络传播权”等问题。[4] 最近,有关版权侵权的争议始终围绕着AI公司:图片发行商Getty Images起诉Stable Diffusion使用有版权的照片来训练其系统。OpenAI也因拒绝分享用于训练其软件的数据集的细节而面临批评。

结语

各国著作权法的立法宗旨都是鼓励作者各施所长,各尽所能,独立创作出丰富多彩的作品,正所谓提倡“百花齐放,百家争鸣”,从而促进文学、艺术及科学领域的繁荣与发展。著作权法不保护思想,而只保护思想的表达形式。因为著作权法表象目标是提供著作权人一定期间的垄断权,从而激发作者的创作热情。但著作权法终极目标是为了促进思想繁荣及社会进步。所以思想应该是自由的, 如果思想被垄断了, 等于思想的传播被人为阻断了,则会禁锢后人的想象力和创造力。AI在现阶段尚不具备独立思想及开拓式创新的能力,拟出台的人工智能法将对AI的开发者及使用者提出更高的要求,即如何借鉴他人的思想,在不侵犯他人合法权益前提下,应用AI创作出衍生式甚至开拓式创新作品,但彼时,距离AI在各领域全面取代人类也为时不远了。


参考文献:

[1] 华尔街见闻:《欧盟达成《人工智能法》协议,为生成式AI设立版权规则》,来源:澎湃新闻 04-28 13:17。

[2] 非凡科普:链接:https://www.zhihu.com/pin/1605674940094783489?utm_id=0,发布于 2023-02-05 21:12・IP 属地北京,来源:知乎,最后访问时间:2023年05月02日。

[3] 量子认知:《简单解释:ChatGPT到底是如何工作的?》2023-04-14 01:26, https://baijiahao.baidu.com/s?id=1763082601430681295&wfr=spider&for=pc,最后访问时间:2023年4月16日。

[4] 陈永伟:《生成式AI时代的著作权之困》,载《经济观察报》2023-04-12 02:01,http://t.10jqka.com.cn/pid_279982808.shtml,最后访问时间:2023年05月02日。

作者:高玉光 北京市信利(深圳)律师事务所 

编辑:智愿君          校对:智愿君