文章总结: 文章对话剖析了Anthropic、Meta及奥特曼案等大模型训练版权纠纷,对比中美法院在合理使用认定上的逻辑差异。内容探讨了转换性使用及市场影响等争议,指出传统版权法面临挑战。结论认为司法呈现宽进严出趋势,未来需在版权保护与AI发展间平衡,关注市场化授权机制的完善。 综合评分: 84 文章分类: AI安全,政策法规,数据安全
从Anthropic 案到Meta案,再到奥特曼案,袁律师与曹律师有一场从夏天持续到冬天的对话
原创
袁立志 曹天鸣
减熵实验室
2025年12月29日 17:49 上海
作者:袁立志曹天鸣
2025年6月23日,美国加州北区联邦地区法院就Bartz v. Anthropic PBC模型训练版权案作出判决,美国人工智能企业Anthropic在大模型训练语料版权合理使用问题上获得胜诉。这一判决是美国多起类似案件中的首批判决,引起AI行业与版权界的广泛关注。
随后,美国法院就类似的Meta案作出判决,而德国有GEMA案判决,英国有Getty Images案判决,中国法院则作出了奥特曼案和美杜莎案判决。环球同此凉热,好不热闹。
袁律师长期跟踪研究AI监管与治理,曹律师是知识产权法科班出身,关于这些案件以及大模型训练语料版权合理使用问题,两人有一场从夏天持续到冬天的对话。
Anthropic案件背景
袁律师:你先说说Anthropic案的案情吧。
曹律师:该案发生在美国头部人工智能企业Anthropic与图书作者之间,图书作者认为,Anthropic未经许可使用他们图书的行为侵犯了他们的版权,侵权行为有两项:第一,Anthropic公司在训练Claude大语言模型时,未经作者授权,即从各网站上下载数百万本电子图书用于大模型训练;第二,Anthropic公司虽购买了部分实体正版图书,并经拆页扫描后转化为数字化复制件存储,从而建立内部语料库,也被称作“中央图书馆”,企图永久保存这些书籍。作者还指控Anthropic从盗版网站下载图书用于训练,被法院判定侵权,但这不是咱们要重点讨论的问题。
袁律师:这并非美国的首例涉及AI的案件,为什么这个案子的判决引起了广泛的关注?
曹律师:此案是美国联邦法院针对“大模型训练语料版权合理使用”问题作出明确判决的首批案件之一,因此受到广泛关注。
袁律师:美国法院还审理了哪些同类案件?
曹律师:早在2020年,Thomson Reuters v. Ross Intelligence一案打响了原创作者/出版商与人工智能公司之间的版权战争,作为媒体和科技巨头的Thomson Reuters起诉小型法律AI初创公司Ross Intelligence的,指控其复制了Thomson Reuters旗下法律平台Westlaw的材料,违反了美国版权法。
如今美国正处于这场诉讼浪潮的正中心,在美国各州法院,数十起相关诉讼正在进行,被告包括AI行业几乎全部的头部企业,包括谷歌、OpenAI、英伟达等等AI行业巨头,该案的判决结果将会对剩余案件的诉讼进程造成影响。
袁律师:看起来,该案并非孤立存在,该案可能与同期其他涉AI版权纠纷的案件形成联动效应,对相关领域的立法方向、监管政策的制定产生实质性影响,这也是观察美国法院就AI技术版权问题所处立场的风向标。
曹律师:遗憾的是,Anthropic在9月向法院申请和解了,Anthropic开出的和解金是15亿美元,创下了美国版权诉讼史上的最高纪录。
袁律师:真没劲。我本来指望此案能够上诉的,最好上诉到美国最高法院,看看目前保守派占多数的最高法院在这个问题上是什么态度。
曹律师:6月的初审判决,Anthropic赢了一半输了一半,在使用正版书籍训练的问题上赢了,但在使用盗版书籍训练的问题上输了。如果上诉,前者有可能被推翻,后者翻盘的可能性却很小。见好就收似乎是最佳策略。
袁律师:这样和解会进一步推高行业门槛。训练本来就很烧钱,现在还要支付巨额版权赔偿,对创业公司更加不友好。
曹律师:是的。近日,约翰·卡雷鲁等作家正起诉OpenAI、谷歌、Meta等六大AI巨头,指控其使用盗版书籍训练模型。诉讼策略上,原告方正有意避免类似于Anthropic案的集体诉讼,看来是希望通过精准诉讼厘清法律边界。该案还在进行中,不知走向如何。
争议焦点与分析框架
袁律师:回到Anthropic案的争议焦点,使用正版书籍进行大模型训练是否构成合理使用,法院的结论和依据是什么?
曹律师:法院认定构成合理使用,其理由是,按照版权法中合理使用的四要素分析,三个要素支持合理使用,只有第二要素不支持合理使用,但第二要素不重要,故总体上支持合理使用。
袁律师:你说说美国版权法中的四要素分析方法吧。
曹律师:说来话长。1841年Folsom v. Marsh案中,Joseph Story法官提出了判断合理使用的三个初步标准:即考虑使用的性质和目的(是否具有商业性)、使用部分的数量和价值以及使用行为对原作品的损害程度。上述判断标准为后续美国《版权法》第107条确定合理使用的四要素测试奠定了基础。
根据美国《版权法》第107条,判断作品使用行为是否构成合理使用应综合四个要素来确定:一是使用的目的与性质,二是受版权保护的作品性质,三是与原作品相比,所使用部分的数量和质量,四是使用作品对原作品潜在市场或者价值的影响。
除了这四个要素之外,《版权法》第107条序言还列举了一些特定的合理使用情形,例如以批判、评论、新闻报道、教学和学术研究为目的的使用不构成侵权。这些规定构成了美国著作权合理使用制度的基本法律框架,并在司法实践中发挥着重要的利益平衡作用。
袁律师:这个分析框架后来有什么演变发展吗?
曹律师:在Campbell v. Acuff-Rose Music案后,法院在合理使用的判断上加入了新的内容,即“转化性使用测试”。美国最高法院认定Live Crew乐队对Roy Orbison歌曲《Oh, Pretty Woman》的滑稽模仿构成合理使用,并在判决中指明了两点:第一,该改编“增加了新的表达、含义或信息”,与原作形成鲜明对比;第二,转换性越强,商业性影响越小。
从“转换性使用测试”的提出可以看出,美国版权领域开始关注使用者的权利,有时使用者的适当使用行为有益于实现版权法的最终目的。法院在Stewart v. Abend案中指出,“如果法院刻板地运用版权法,那么将会扼杀创造性,导致版权法的效果与目的背道而驰”,美国版权法的最终目的从来都不只是保护版权,而是“为增进科学和实用艺术的生产”。
袁律师:这个“转换性使用”怎么理解呢?
曹律师:在判断是否构成转化性使用时,需要考虑:对原作品的使用是不是单纯地再现原作品本身的文学、艺术价值或者再现其内在的功能或目的,还是通过增加新的美学内容、新的视角、新的理念或者通过其他方式,使原作品在使用过程中具有新的价值、功能或性质,从而改变了其原先的功能或目的。第二类使用行为,即转换性使用,往往不会在市场上替代原作,反而更有可能推动版权立法宗旨的实现。
袁律师:创设合理使用制度是为了版权保护与公共利益的再平衡,当出现新情况时,通过“转换性使用”对合理使用制度打了一个补丁,是对版权保护与公共利益的再一次平衡。现在,我们又面临一个前所未有的情况:大语言模型横空出世,版权法该如何应对呢?
曹律师:我认为原来的利益平衡局面可能会被打破。大模型的记忆、生成能力远远超越了人类,起码在数量和效率上远超人类,而且大模型对特定作品的吸收与生成内容之间的关系难以追溯和解释,这都使得传统的合理使用分析框架面临失灵的风险。
袁律师:一出现新问题就把现有法律推倒重来不是法律人的习惯。路径依赖是普遍存在的,再过时的法律也可以将就着用,缝缝补补又三年,对合理使用制度进行进一步的解释再造似乎是一种自然而然的选择。
曹律师:对,Anthropic案的法官就是这么干的。接下来我们聊聊法院是如何运用传统的四要素分析法来分析本案的。
(文章很长,眺望一下十一月的四姑娘山再看吧)
关于第一要素的讨论
袁律师:咱们一个要素一个要素聊吧。第一要素是使用的目的与性质,法院是如何分析的?
曹律师:法院对第一要素的分析有三个方面。
首先,从经济成本角度,如果将机器学习比作人类通过阅读书籍进行写作,却要求每个人在每次阅读、回忆书籍写作时都支付费用,作品使用人将会因此承受难以想象的负担。
其次,从版权界限角度,被告训练的语言大模型未能体现原作者可识别的表达,“Claude”从作品中所提炼的语法、结构与风格并非版权法保护的范畴,这呼应了“思想-表达二分法”的基本原理。
最后,从使用性质角度,Anthropic如同渴望成为作家的读者,它在利用受版权保护的作品训练大语言模型生成新文本时并未取代现有作品,而是创造出了不同的东西,这一产生复制件的过程属于转换性使用。
综上,法院得出结论认为,第一要素支持构成合理使用。
袁律师:将大模型训练过程与人类学习简单类比,这听起来不太靠谱。机器学习的过程与人类学习很不相同,大模型生成文字内容的过程与人类的创作过程也完全不同。目前机器对知识的“理解”,还只是停留在文字符号层面,无法把知识与现实关联起来,这与人类的“理解”存在根本差异。比如,机器能够把“猫”和“毛茸茸”这两个词语联系起来,也能够利用这种联系生成看起来通顺的句子,但是机器没有对“毛茸茸”一词的实在感知,也无法回忆起某一次抚摸一只小猫时温暖柔顺的独特体验。从这个角度而言,机器并没有真正“理解”作品。
法律人通常会有一个刻板印象,美国的法官都是博览群书的饱学之士,现在看来也不尽然,起码本案法官对大模型的理解很不到位。
曹律师:是的。从版权法的角度来说,大模型训练过程与人类学习存在一些本质差异,主要有三点:
第一,人类学习前也需合法获取书籍,比如购买纸质书或者从线上商城购买获取,大模型训练则通常将“复制”作为学习的前提步骤,而这个步骤本身就可能涉及侵权风险。
第二,人类学习是表达内化抽象为思想,具有模糊性和个人性,而大模型训练却能够精确复制分析数据,其所处理的对象恰恰是受保护的表达本身。
第三,人类的个人学习行为是小规模的、受限的,而大模型训练是对海量版权作品的大规模、工业化利用,其规模和性质已经足以对版权市场造成潜在影响。
袁律师:如果大模型训练过程与人类学习有根本不同,那简单地将适用于人类学习的版权例外规则直接套用于大模型训练上,就有可能翻车。
曹律师:法院在第一要素讨论中通常强调两个关键点,即商业性和转换性使用。大模型使用受版权保护作品进行训练是否具有转换性,这是一个存在争议的问题。
支持者认为生成式人工智能训练过程是高度变革性的。机器学习中的统计分析与原始作品的目的和性质相去甚远,其目的不再是“消费”作品的文学艺术价值,而是根据提取出的信息来生成全新的、独立的数字产物。
反对者认为这只是在为未经许可的大规模复制行为寻找借口,一方面受版权保护的作品并非进行大模型训练所必需,另一方面,AI公司完全有能力支付许可费,其行为本质更倾向于“盗用”和“工业化复制”,规避了本应支付给权利人的补偿。
袁律师:简单来说,支持方将训练过程抽象化,着眼于其最终目的,即创造新功能,认为这是合法的学习与创新;反对方则将训练过程具体化,着眼于其复制数据的初始行为和对原作品的依赖性,认为这是非法的复制与利用。各有各的道理,“转化性使用检验法”看起来面临着失效的风险。
曹律师:是的。我们不妨回溯至“转化性使用检验法”的产生。从Campbell v. Acuff-Rose Music案开始,美国最高法院指出转换性越强,商业性影响越小,这意味着使用者的权利受到关注;在Stewart v. Abend案中,则进一步指出美国版权法的最终目的从来都不只是保护版权,而是“为增进科学和实用艺术的生产”,而使用者的适当使用行为有时有益于实现这一最终目的。
袁律师:在我看来,之所以创造出“转换性使用”的概念,是为了弥补“合理使用”制度在应对新情况时的不足,但是,这一概念却缺乏清晰、统一的界定标准。在实践中,模型训练的转换性高低不能脱离具体的应用场景来判断,训练目的和功能与原作品越接近,则转换性程度越低。比如,如果用大模型来进行类似作品的创作,则转换性程度较低;如果将大模型应用于文本审查、客服助手、舆情分析等,就具有较高转换性,因为这一过程产生了额外的新价值和新功能。
曹律师:赞同。不宜将大模型训练一概认定为“转换性”或“非转换性”使用,而必须根据其具体应用目的进行个案分析,否则会失之偏颇。
关于第二要素的讨论
袁律师:第二要素是受版权保护的作品的性质。法院是如何分析的?
曹律师:法院认为被告使用的作品中包含了可受版权保护的表达元素,其对复制件的使用行为是不合理的,故第二要素不支持构成合理使用。
袁律师:这是废话。
曹律师:确实如此。已经有很多学者指出,第二要素在合理使用的整体权衡中作用很小,因为轻保护不等于不保护。所以第二要素通常都不支持认定合理使用。
袁律师:大模型是否会对第二要素带来新的冲击?
曹律师:确实存在。版权法保护的是具体作品,但是在机器学习中,具体作品的贡献难以区分,也欠缺区分必要。
大模型依赖神经网络建构模型,它是一个由海量参数构成的数学函数,而训练过程就是通过调整这些参数来逼近预期的数据映射关系。但是,参数的具体调整过程是不可解释的,这也被称作“算法黑箱”,我们难以追溯某个输出结果是受哪一部高独创性作品或低独创性作品的影响。
此外,第二要素的判断核心不在于作品独创性高低,只要使用了作品,就不支持合理使用。
袁律师:从传统作品场景下看,独创性的高低标准更注重“质”,作品独创性程度越高,其作为输入数据越具有稀缺性,但似乎在大模型背景下版权法上的独创性和大模型所需要的训练语料也有所不同。
曹律师:我理解,大模型性能的关键驱动力是训练数据的数量,而非单一训练数据的质量,OpenAI曾在2020年发布的论文《Scaling Laws for Neural Language Models》指出二者呈现幂律关系,这意味着模型表现会随着数据量的增加而以可预测的方式持续提升,遵循规模法则。因此,在达到饱和点以前,尤其是在模型训练的初期,特定高独创性作品对大模型的贡献度可能不如大量独创性较低的作品。
另一方面,独创性对“质”的要求也与大模型对“质”的要求有所不同:版权法中的“质”指的是指作者独立创作的表达,目的是保护其原创表达;而大模型训练所需要的高质量语料更注重于逻辑的完备性、内容的多样性以及密度,两者是存在差异的。
(来个幺妹峰特写,接着往下看)
关于第三要素的讨论
袁律师:第三要素是与原作品相比,所使用部分的数量和质量。法院是如何对第三要素展开分析的?
曹律师:实践中,第三要素测试的核心是,复制的数量是否“与复制的目的和性质相关”,主要考量以下几点:(a)每部作品被使用的比例;(b)基于使用目的的数量和合理性;(c)向公众开放的数量。
本案中,法院首先肯定了大模型是一个高度转化性的目的(第一要素),基于此,判断需要复制的数量。要有效训练一个高性能的大模型,需要数百万本书籍级别的海量数据,这个庞大的数量是实现创建功能强大的大模型这一转化性目的合理且必要的技术前提。法院进一步推论,在这个前提下,没有任何作品是特殊的或者可替代的,因此使用任何一部单独的作品对于实现整体训练目标来说都是合理的。因此,第三要素支持构成合理使用。
袁律师:这实际上印证了我们在第二要素分析中的讨论,即对大模型训练而言,任意单一作品的贡献都很有限。这使得传统的第三要素测试也不再重要。
曹律师:没错。在人类使用作品时,使用者会摘取一部作品的部分内容,此时,可以通过比对,判断使用的篇幅是否过多、是否引用了最核心的“精华”部分,从而评估该使用行为是否过度。使用的部分与原始作品之间存在清晰、可追溯的联系,使用的部分越多、越实质,这种联系就越强。
但在大模型训练是整体消化全部作品,并将其转化为难以解释的参数,这是一个“全有或全无”的过程。故第三要素测试也变得无关紧要。
关于第四要素的讨论
袁律师:第四要素是使用作品对原作品潜在市场或者价值的影响,法院是如何分析的?
曹律师:法院认定,大模型训练并未对原告作品的市场造成损害,因此第四要素强烈支持构成合理使用。法院重点驳回原告以下两点主张:
第一,关于输出替代的指控。就事实角度而言,没有任何证据表明Claude AI的输出是原告作品的复制品或仿制品,即缺乏可追溯联系;版权法的价值目标在于促进原创作品的创作,原作者所担心如果大模型训练良好导致大量竞争性作品涌入市场的情况并非版权法所关心的竞争或创造性替代类型。
原创作者认为,未经许可使用作品训练大模型将会阻碍“为训练大模型的特定用途许可他们的作品的市场”的发展,这是一个新的潜在市场。法院不认可这一观点,认为这种使用市场并非版权法赋予作者的可开发市场。
袁律师:法院的逻辑有点问题。第四要素要求考虑对实际以及潜在市场的影响,但法院直接将原创作者从新的潜在市场(大模型训练许可市场)排除了。
在大模型已经实际存在并迅速发展的今天,经过语料训练的大模型能够在极短时间内生成高质高量的文本已是现实,此时考虑的市场还局限于原图书作品的市场,未免太狭隘了。
曹律师:补充一点信息。美国版权局在《生成式人工智能训练》报告中曾指出,法院应当将“现有的、合理的或可能发展”的市场一并纳入考量范围。大模型训练许可市场正在快速形成,这一事实就证明它是一个“合理的、正在发展”的市场而非纯粹的臆想,法院认为,上述新兴市场并非版权法赋予作者的可开发市场,但是却没有阐述原因,使得第四要素的讨论与第一要素的讨论形成了重复,架空了第四要素对于“潜在市场”与竞争的讨论。
袁律师:看来美国版权局的格局打开了。按照他们的观点,分析判断“使用作品对原作品潜在市场或者价值的影响”时,应当考虑哪些因素呢?
曹律师:美国版权局提出了销售损失、市场稀释和许可机会损失几种不同的影响市场的方式,具体而言:
第一,销售损失。销售损失的核心是评估原作的市场是否被取代,导致权利持有人因潜在购买者可能选择获取复制件而非原作而损失大量收入。需考量两方面:一是特定使用行为直接造成的损害;二是潜在损害,即若该使用行为不受限制地广泛存在,是否会对原作品市场产生“实质性不利影响”。大模型的输出内容能否替代原作,可参考以下场景:一是直接替代风险。若大模型能生成与训练作品完全相同或实质性相似的复制品,且用户可轻易获取这些复制品,会直接替代原作品销售,导致版权所有者损失收入。二是专门训练作品的损失。针对大模型训练开发的数据集,若其内容受版权法保护或其本身体现对数据的选择和编排,如果未经许可被广泛使用,其销售市场会被直接侵蚀。三是检索增强生成技术(RAG)的影响。RAG技术通过检索并整合原作品内容增强输出,若用户通过RAG获得原作品的摘要或节略,可能不再购买原作,导致市场需求被替代。
第二,市场稀释。市场稀释主要关注人工智能输出虽不与特定原作品实质性相似,在同类作品市场中可能构成形成竞争,导致原作品市场份额被挤压,最终影响创作者的创作激励的情况。大模型生成物造成的市场稀释主要体现在以下两个方面:一是同类作品竞争加剧,人工智能生成内容的速度和规模可能充斥市场,导致人类创作的同类作品销量下降、受众分散,版税池被稀释;二是风格模仿削弱原作市场竞争力,即使人工智能输出不复制原作品,但其模仿原作者风格,会导致市场混淆,使用户难以区分AI作品与原作,直接影响原作者的市场竞争力。
第三,许可机会损失。许可机会损失聚焦版权所有者因未经许可的大模型训练,丧失本可通过授权使用获得的收入,该许可市场只要是“传统的、合理的或可能发展的”市场即可被认可,而不必长期存在或全面覆盖。部分领域已形成大模型训练许可市场,例如OpenAI与美联社、Getty Images的合作。但是,不同许可活动间存在较大可行性差异,例如新闻机构、唱片公司等大型机构的高质量且集中化的内容较易获得许可,而网络评论等分散的个人作品则因权利主体难以确定,许可成本高,实际操作难度大。在像后者这种许可障碍难以克服的情况下,不存在可被损害的、正常运行的市场,此时第四要素测试有利于合理使用的认定。
袁律师:就本案而言,大量AI创造的作品的出现确实会造成图书市场稀释的可能性,但原告未对此进行主张,法院也未进行分析。我们应当如何看待生成式AI对市场稀释的影响?
曹律师:生成式AI创造文本的速度与规模是远超人类的,短时间内AI可以创造大量与训练所使用作品相似的文本,这意味着作者作品的销售竞争加剧,受众也更难找到这些人类作家创造的作品。
此外,生成式AI也很擅长学习某种“风格”,虽然风格并非《版权法》保护的客体,但普通人无法区分原作品与风格相似的海量AI作品,普通人的关注度被分散,同样稀释了原作品的市场。
袁律师:总结一下,法院在考虑第四要素时,至少应该考虑两个问题:第一,横向维度上我们要考虑哪些市场?第二,纵向维度上大模型将会通过哪些方式影响市场?从原告角度出发,在考虑原作品市场的影响时,同样也可以从横向的市场类型的列举+横向的影响市场的方式出发进行论证与举证。
(犹抱琵琶半遮面)
关于其他类似案件的讨论
袁律师:在Anthropic案之后,美国是否对其他类似的案件判决?
曹律师:该判决作出两天后,美国加州北区联邦法院就Kadrey v. Meta Platforms, Inc.案也作出了判决。
该案主审法官Vince Chhabria认为,在Anthropic案中William Alsup将图书训练大模型与培养能够写出“竞争性图书”的小学生的类比是荒谬的,因为人类的阅读、消化和再创作过程是缓慢而有限的,其产出不会在短时间内对原作市场造成实质性冲击。但大模型则不然,其规模化、自动化生成内容的能力,使其能够直接进入并挤压原创作品的市场空间。
他还反对了William Alsup关于“大模型属于突破性的技术,因此不应被版权法限制”的观点。大模型公司具有向版权人支付版权费的盈利能力,不能仅因为大模型的突破性,就在不支付版权费的情况下将受版权保护的作品用于大模型的训练。
袁律师:我赞成Vince Chhabria法官前一半观点,即大模型训练过程与人类学习存在本质差异,但对其后一半观点则还拿不准,在面对颠覆性技术时,现行法律是否应该“让路”?你怎么看两案法官之间的分歧?
曹律师:在Anthropic案中,法官的裁判思路似乎遵循了目的论,其前提是:鉴于人工智能对国家利益的战略重要性,版权法必须做出适应性调整。这种方法将合理使用制度从一个单纯的法律抗辩,提升为一个服务于技术创新的宏观政策工具。与之形成鲜明对比的是,Meta案的法官则坚守形式主义立场,认为版权法作为一种成熟的私有财产保护机制,其权利界定不应因某项技术的“重要性”而被动摇。大模型公司作为追求商业利益的主体,其技术创新带来的版权成本理应自行承担,而非将之转嫁给法律或社会。不过,Meta案法官最终以原告未能证明大模型训练将会如何“稀释”原作品的市场为由,未支持原告的诉请。
袁律师:哈哈哈,这让我想起了著名的马伯里诉麦迪逊案,我怀疑Vince Chhabria法官从狡黠的马歇尔大法官那里借鉴了什么。
曹律师:嗯嗯,我认为法院的反对理由略显单薄,四要素分析需要综合考虑,仅以第四要素中的未证明“市场稀释”为由驳回诉请显得理由不够充分,且与判决中的其他论述存在断层。美国法官也不是生活在真空中,如果判决大模型公司巨额赔偿,可能会面临来自政府与科技巨头的压力。Meta案的判决避免了各方压力,也为未来的判决埋下了伏笔。
袁律师:在其他国家,他们的法院对AI训练的态度如何?
曹律师:目前,比较值得关注的是德国的GEMA案以及英国的Getty Images案件。两国法院的根本分歧在于“训练行为是否在版权法上产生了侵权复制品”。德国法院采取较为严格的立场,认为如果大模型在训练过程中将受版权保护的内容“记忆”并固化于模型参数中,且能通过简单提示近乎原样输出,则该“记忆”行为本身即构成著作权法意义上的非法复制,同时以超出“分析信息”范围为由,排除了“文本与数据挖掘”的例外条款。而英国法院则显得更为谨慎,认为大模型作为训练过程的最终产物,其本身并未存储版权作品,因此不构成“侵权复制品”。
袁律师:看来在新技术背景下,不同法域判决的逻辑很不同,英国从“最终产物是否包含作品复制件”出发,认定模型本身不构成“侵权复制品”,德国从“最终产物的输出结果可追溯至训练数据”倒推,认定“记忆”性训练过程构成非法复制,这样判决逻辑的不同,不仅体现了大陆法系和英美法系在新技术冲击下的法律解释路径的不同,也能看出不同国家对AI技术创新,尤其是他国AI发展的政策立场,这两份判决也很有研究价值,我们留待未来慢慢讨论。
(远处这座不知名的小山很有特色)
与中国奥特曼案的比较观察
袁律师:讨论完了域外的案件,回过头来看看我国的版权法。我们也有合理使用制度,是否可以为大模型训练提供合法空间?
曹律师:我国《著作权法》中关于合理使用的例外情形采用了列举式的规定,但不包括大模型训练情形。站在解释论的立场上,即便是三种最可能的合理使用情形,也无法直接适用:
第一,为个人学习、研究或者欣赏,使用他人已经发表的作品。大模型训练的主体如果是AI企业,则不符合“个人”主体的要求。
第二,为介绍、评论某一作品或者说明某一问题,在作品中适当引用他人已经发表的作品。大模型训练需要大量作品的全文,不符合“适当引用”的要求。
第三,为学校课堂教学或者科学研究,翻译、改编、汇编、播放或者少量复制已经发表的作品,供教学或者科研人员使用,但不得出版发行。大模型训练通常具有营利目的,也不符合“少量”复制的数量要求,故难以适用。
袁律师:那在不符合列举式规定的情况下,是否还有其他构成合理使用的路径?
曹律师:我国为伯尔尼公约的成员国,可适用其规定的合理使用的“三步检验法”作为兜底性条款,即(1)只能在特殊情况下使用他人已经发表的作品,(2)与作品的正常利用不相冲突,(3)没有不合理地损害权利人的合法权益。
在杭州奥特曼案中,我国法院已有在生成式大模型训练案中采用“合理使用”的案例,适用的正是上述“三步检验法”。
袁律师:那请你介绍一下杭州奥特曼案。
曹律师:在杭州奥特曼案中,法院明确,对大模型技术应持审慎包容的态度,鼓励技术进步和商业发展。大模型在训练阶段使用大量作品,其目的通常是为了学习和分析在先作品所表达的思想感情、语言特征、特色风格等内容,从中提取出相应的规则、结构、模式、趋势,而非直接再现作品的独创性表达。大模型的创设与发展,需要在输入端引入巨量的训练数据,其中不可避免会使用他人作品。该种使用行为聚合大量作品作为分析样本数据进行提高作品创作能力训练,且一般情况下数据训练只是对语料数据做结构特征分析时暂时保留了在先作品,数据训练及生成过程中也未将在先作品展示给公众。
袁律师:法院还是做了不少功课的,论证也颇费笔墨。法院强调“独创性表达”,大概是想借用“思想-表达二分法”的思路。不过,我理解,虽然批量的语料与千亿级规模的参数之间的关系无法进行清晰的解释,但大模型从作品中“学”到的东西中一定包含作品的独创性表达,有时这种独创性表达会若隐若现地体现到生成物中,这个大家都有体会。之所以很少看到“独创性表达”的直接再现,那只是被大量语料稀释了,训练过程也被数量和复杂性掩饰了。
进一步,正如我在前面说到的,目前机器学习仅仅停留在文字符号层面,无法关联实在感知,无法真正“理解“作品的内容。法院所谓的“学习和分析在先作品所表达的思想感情、语言特征、特色风格等内容”,恐怕有点高看当前的大模型了。可以说,当前大模型训练和生成全部“浮“在“表达”层面,远未触及真正的“思想”,这也是很多专家认为现有的大模型路线无法实现通用人工智能的原因所在。所以,想用“思想-表达二分法”来为大模型训练正名,似乎经不起推敲。
曹律师:嗯嗯。还有一点值得关注,法院认为,无证据证明大模型训练已影响到权利作品正常使用,或者不合理地损害相关著作权人的合法利益,因此可以被认为是合理使用。这相当于美国法院的第四要素测试。
但是,如何判断“是否损害著作权人的合法利益”,法院没有给出进一步的解释。一方面,必须正视大模型对人类创作者市场带来的巨大冲击,另一方面,又要判断这种冲击在科技发展背景下是否“合理”。而这种判断需要进行复杂的利益权衡,即在保护人类作者的利益与促进AI产业发展之间取得平衡,并在AI带来的短期创作效率提升与可能引发的长期问题之间做出选择,目前下结论为时尚早,应该让子弹再飞一会儿。
袁律师:从奥特曼案再到最新的美杜莎案,目前公开的案例都呈现出我国对AI训练的“宽进严出”态度,司法实践主要在网络侵权责任框架下界定平台方责任边界,重点规制传播阶段的侵权行为,对训练阶段则保持相对宽松的认定标准。
我觉得现阶段这样的安排符合AI行业的发展规律的:第一阶段先为AI行业铺路,让行业能快速抢占市场、发展壮大;第二阶段再搭建完善的语料授权机制、鼓励市场化授权,既让AI训练能用到更优质的语料,也能盘活企业手里沉淀的各类数据,让数据真正发挥出应有的价值。从最新的迪士尼与OpenAI达成战略合作来看,目前越来越多的企业已经开始探索市场化授权的道路。
(别光顾着看文章,你也该出去走走)
不算结束的结束…
袁律师:我们的讨论从夏天持续到冬天,已经够多了。综合中美法院的判决,可以发现,对于大模型训练本质的理解,以及大模型对创作市场的影响是两个关键问题。前者虽有分歧,但已逐渐清晰,后者则还有待进一步评估,因为大模型带来的影响需要足够长的时间才能完全显现。这些都会影响版权法对待大模型训练的方式。
曹律师:关于大模型训练语料的版权问题,中美及其他地区的法院分别还有多起案件在进展中,我们将持续保持关注。希望我和袁律师对话能为大家带来一些启发。
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:减熵实验室 袁立志 曹天鸣《从Anthropic 案到Meta案,再到奥特曼案,袁律师与曹律师有一场从夏天持续到冬天的对话》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论