大模型深陷版权博弈,数据训练坚冰将破
1. 唱片大厂vs.模型新王
美国多家唱片大厂在2024年6月24日在马萨诸塞州地区法院集体起诉Suno,消息一出,即时轰动人工智能和娱乐内容行业。对人工智能技术本身和受到全球高度关注的AI立法而言,这起案件的意义远大于公众从媒体感受到的震动。这起案件并不只是娱乐大厂和音乐AI新锐的碰撞,而是一场对AI大模型数据训练合法性判断标准有重大影响的历史性诉讼。
诉讼双方都很抢眼。原告云集美国唱片业协会(RIAA)旗下环球(UMG Records), 索尼(Sony Music),华纳(Warner Records)等全球唱片大厂。按被告答辩状所称,原告控制美国音乐用户消费音乐作品的75%【1】。不仅如此,也正是原告阵营的唱片公司在RIAA的高效组织下,通过集体诉讼行动连续完胜Napster案(2000年)、海盗湾案(The Pirate Bay,2009年)和Grooveshark案(2015年)等一系列奠定网络版权法基本规则的里程碑诉讼。
本案被告Suno Inc.是一家2022年才成立的人工智能公司,但被告在2024年3月推出的V3音乐大模型以一己之力将生成式AI音乐能力推举到前所未有的新高。凭借根据用户提示词即时生成全套成片高品质词曲乐唱的出色表现,SunoV3几乎在24小时内就火遍全网,拿下音乐GPT的媒体标签。
音乐和文字是完全不同类型的处理数据,对神经网络架构、具体算法、参数调整和数据标注等方面的要求有很大差异。Suno创始人充分利用自己兼通音乐和深度学习领域的优势,在巨头如林的文字和视频模型领域之外异军突起。
RIAA本次顺带在纽约南区地方法院把另一家新成立的音乐AI公司Uncharted Labs, Inc一并起诉了,Uncharted推出的Udio AI是Suno的竞品。两起案件涉及事实和适用法律基本一致,本文以RIAA诉Suno案为代表,作为对这两起案件的共同分析。
2. Suno案具有特殊意义
RIAA诉Suno案(下称“Suno案”)并不是内容和娱乐行业针对人工智能的初次诉讼。即使在生成式大模型重塑AI技术之后,中美也已发生过一系列有影响的AI版权诉讼。但RIAA诉Suno案在迄今所有AI版权争议中具有特殊重要的意义。
(1)数据是大模型智能的基础
Suno案的核心争议点在于,被告音乐大模型使用原告大量版权保护音乐进行预训练,进而生成和原告版权内容近似的音乐。数据预训练既是本案的根本争点,也是生成式大模型自我生成智能的基础和前提。以语言大模型为例,生成式技术原理是通过神经网络学习语言素材,提取和掌握语料中数据结构和分布规律进而掌握语言本身。相较之下,音乐大模型的区别则是以音乐作为训练语料,专门学习各种音乐的数据特征,进而掌握音乐生成的数据规律。
生成式人工智能是数据驱动型技术,模型能力直接依赖训练数据的数量和质量。OpenAI率先提出并被实践证明的数据越大模型能力越大的Scaling law(规模法则),推动大模型使用一切可以训练的数据。如果缺乏训练素材,再优秀的大模型也无法产生智能;大模型要实现高强度的通用智能(AGI)必须先生成自己的世界模型(World Model,可以理解为AI用以理解真实世界的内部数据模型),这就需要给AI训练能映射整个真实世界的海量数据。
不单是通用AI模型高度倚重训练数据,垂直功能的模型同样对数据极度依赖。自动驾驶(FSD)技术是特斯拉的核心技术。2024年特斯拉自动驾驶技术的根本性变革就是抛弃传统由人工预先写入大量控制代码的准则模型,切换到自主学习驾驶的端到端算法模型。特斯拉表示,FSD V12版本首次放弃准则模型后,代码数量从原来的30多万行缩减到了2000行。马斯克强调数据对模型的重要性:“用100万个视频case训练,勉强够用;200万个,稍好一些;300万个,就会感到Wow(惊叹);到了1000万个,就变得难以置信了。”【2】
OpenAI新发布的据称在数理化科目上达到博士水平(陶哲轩认为达到硕士水平,但估计那是以耶鲁数学系为基准)的o1模型,主要是依赖通过自我博弈强化推理能力的思维链(Chain of Thought,简称CoT)技术。和模型预训练卷数据不同,思维链是卷后训练阶段的逻辑思维。从某种程度上看,CoT可以被视为大模型的逻辑插件,对后训练的强化并没有降低对预训练数据的需求。无论CoT技术如何发展也不会代替大模型对数据的需求而只是缓解AI过度依赖于预训练的数据饥渴。
(2)对比视角下的在先案例
军事语言中的会战,通常指大规模战役中具有战略意义的决定性战斗,是战争中的制高点,围棋中的天王山。
数据预训练的合法性在很大程度上可以决定大模型的未来,而RIAA诉Suno在数据预训练合法性争议角度是迄今为止具有特殊甚至决定意义的案件。内容和娱乐行业与人工智能行业在版权问题上处于整体冲突,如果已经发生的一系列诉讼可以视为内容产业和AI技术之前的全面战争,Suno案就是全面战争中的关键会战。在诉讼对AI数据训练合法性的影响上,Suno案的重要性丝毫不亚于任何案件。
以下按时间先后对比Suno案和其他知名的大模型预训练版权诉讼,以便通过和本案的对比了解其中的共通之处和差异。
Stability AI图片案
两起案件中,艺术家安德森等在美国旧金山联邦法院向Stability AI发起的集体诉讼是全球第一起图片AI版权诉讼。全球最大的图片版权公司Getty Images在美国特拉华州联邦法院起诉Stability AI案紧随其后。【3】
在这两起案件中,安德森等诉Stability AI案原告律师把证明重心放在模型技术分析而不是直接侵权证据,看上去是想援引大量算法材料证明,被告Stable Diffusion大模型在逻辑上不可避免要使用原告版权内容进行训练。本案一审法院已要求原告补充证据,否则将驳回诉讼。
Getty Images诉Stability AI案则是代表版权巨头和人工智能之间的冲突。和前一起案件不同,Getty Images提交了被告生成和原告版权图片高度相似甚至有包含原告商标水印的证据,被告败诉是大概率事件。但Getty案毕竟是AI诉讼从无到有的先行者,原被告双方对抗中过于分散的主张都显得信心不足而充满试探性。相比之下,RIAA诉Suno案的抗辩主线就收敛很多,因此对大模型数据预训练核心争议的影响也更明显。
美国作家协会诉OpenAI案
美国作家协会在纽约曼哈顿联邦法院起诉OpenAI未经许可使用版权保护内容进行训练的案件,借《权力的游戏》作者老马丁(George R. R. Martin)等多位作家的参与而名声大噪。
这起案件另一个特别耐看的地方是原告直接把矛头指向大模型数据预训练,但本案原告在举证和诉请上都有重大缺陷,只以ChatGPT模型根据提问要求可以生成原告作品简介和摘要就作为证据,要求OpenAI承担未经许可进行训练的侵权责任。
原告似乎忘了联邦第二巡回法院在著名的作家协会诉谷歌图书馆案(The Authors Guild,Inc. v Google,Inc)判决中认定为保存版本而扫描以及向公众提供“书名、简介及部分预览”适用合理使用【4】,也遗漏了联邦第九巡回法院在Perfect 10 v. Google,Inc案判决中支持谷歌对搜索结果提供缩略图符合美国版权合理使用四要件的抗辩。【5】
根据美国版权法合理使用规则以及联邦法院迄今未被推翻的经典判例,本案ChatGPT生成作品简介和摘要明显符合版权合理使用的抗辩事由【6】,直接追溯使用数据预训练侵权责任在法理上也没有充分依据。
纽约时报诉OpenAI案
纽约时报在2023年12月向纽约曼哈顿联邦地区法院发起针对ChatGPT模型侵权的诉讼也有希望成为树立AI版权法律规则的经典案例。但OpenAI已经向纽约时报付费获取对报道的使用授权,案件虽然尚未收尾,但似乎正在往和解方向走。
事实上,纽约时报诉OpenAI案(下称“纽约时报案”)和Suno案相比,在法律研究上的意义并不一样。Suno案焦点直面数据预训练的合理使用,而纽约时报案虽有天价索赔,案件首要争点却是合理使用之外另一项称为反爬虫技术措施的法律规则。
Suno案基本不存在选择商业解决方案的空间,尤其对被告来说,只有一争到底,别无出路。而OpenAI在纽约时报案中面对的不仅是原告具有很高训练价值的优质内容,而且是获得原告许可后,可以满足用户在ChatGPT平台就能及时了解全球媒体报道的需求,以及更好的强化大模型检索增强生成机制(RAG)。这也正是OpenAI在诉讼过程中一直和纽约时报谈判购买授权的根本原因。
奥特曼图片版权案
广州互联网法院(2024)粤0192民初113号判决书裁定的上海新创华文化发展有限公司诉某AI公司侵犯奥特曼形象版权的版权侵权纠纷,虽然被称为全球首个AIGC平台侵权案,但该案被告只是海外大模型在国内的接口服务商,判决既未涉及大模型提供方作为案外人的法律责任,也因“被告并未实际进行模型训练行为”而没有支持原告“将案涉奥特曼物料从其训练数据集中删除的诉请”。
RIAA诉Antrophic
本案原告是RIAA的三家成员环球音乐、Concord和ABKCO,被告是头部大模型Claude2开发者、亚马逊系AI企业Anthropic。
RIAA在田纳西州联邦法院起诉Antrophic的这起案件诉由是Claude 2在对话中向用户提供原告拥有版权的多首歌曲的歌词(song lyrics)。Claude系列模型是以文字内容作为生成目标的通用模型,歌词在重要性上不如旋律,而包括歌词和旋律在内的全部音乐内容都不是大模型训练与生成的重点。简而言之,歌词对模型素材的占比和影响极微,即使败诉对Antrophic的影响也限于本案而不会有延伸效应。
以上列举并不是所有大模型数据训练版权案件,还有一些很有趣的案例,如著名法律数据服务商Thomson Reuters与West Publishing共同起诉法律AI公司Ross Intelligence侵犯版权案(特拉华州地区法院审理,C. A. 20-613-LPS)。但汤森路透案最吸引人的争点在于原告对2万多份判决书所作的包括法律问题和编号在内的批注/索引是否可以主张版权保护,和RIAA诉Suno案争点相差较大故而不作援引。
(3)作为特例的Kneschke诉LAION案
德国汉堡地方法院在2024年9月27日判决的310 O 227/23号案摄影师Kneschke诉知名开源训练集LAION著作权侵权案【7】,是欧盟人工智能法案(AI法案或AIA)生效后第一起关于数据训练侵权案判决。
之所以将这起案件作为特例,不仅在于该案一次性审理了数据训练的两个关键问题,即关于数据训练(预训练)是否属于通常被豁免于著作权法意义使用行为的临时复制,以及商业与科研两类引起各不相同的合理使用范围的数据挖掘,而且在于我虽然认可判决结果,但也认为裁判理由有误,后一点在未来将有机会被纠正。
本案细节将在以后专门讨论著作权合理使用的文章中展开,本节对争议并不具体分析,只介绍案件要点。
Kneschke诉LAION案原告诉请法院判定被告采集原告享有著作权的图片作为训练数据集,原告通过bigstock网站发布相关图片时在用户协议中声明禁止第三方包括下载及索引或缓存等行为。被告LAION并未否认抓取、下载、分析争议图片并将元数据置于其公开提供的数据集的行为,但在抗辩上一口气援引了德国著作权法(简称UrhG,UrhG必须符合欧盟法)下的三项著作权保护例外,即第44条a规定的临时复制,第44条b规定用于商业目的的文本和数据挖掘(TDM),和第60条d规定用于科学研究目的的TDM。
德国汉堡地方法院在判决中首先排除了被告援引第44条a的抗辩,认为预训练并不属于著作权法下临时复制所指的临时行为,也驳回了被告对原告未以robot.txt文件形式(即未使用爬虫协议)声明保留著作权的抗辩,认定以用户协议方式发布应属于机器可读形式。
一审判决最关键,同时也是最引起关注的部分是法院支持了数据训练符合UrhG第60条d规定科学研究目的TDM的主张。科学研究目的TDM和UrhG44条b规定的一般TDM相比,主张合理使用时无需以遵守权利人的著作权保留声明为条件。
UrhG第44条b与第60条d,分别与欧盟《数字化单一市场版权指令》第3条和第4条规定的TDM例外对应。因此,如果德国法院判决成为司法标杆,这意味着全欧洲都会承认数据训练可以主张著作权保护对科学研究目的的TDM的例外。
我认同判决对模型预训练不符合临时复制规定的推理,也认同对训练数据可适用TDM挖掘的著作权保护例外,但除了专门为测试大模型等特殊目的进行的预训练外,数据训练的本质已经是技术应用,而非研发。赋予通用的数据训练以科学研究目的的TDM,会使模型行为所受的法律限制比人类本身执行同样数据挖掘任务受到的法律限制更小,造成法律适用的不均衡。
(4)音乐AI:没有撤退可言
模型预训练是否应当适用合理使用,本质是法理问题。但在依据法理展开逻辑分析前,了解行业和技术实况仍然可以帮助我们全面观察问题。
RIAA诉Suno案是一场对音乐和AI产业都很重要的诉讼。Suno案将对被告,对人工智能行业的未来,以及大模型数据预训练合法性都会产生关键影响。音乐大模型无法脱离大量音乐训练语料而直接生成理想的结果。如果数据预训练需要付费,即使按RIAA诉讼中提出每首歌曲15万美元赔偿标准1%或者参考唱片发行或演唱许可费,折算单环球音乐一家就有400万首歌曲的数量,足以让Suno这类初创企业退出AI行业。
短视频的流行推动背景音乐需求的爆发,字节跳动连续推出SEED-Music、StemGen和豆包全家桶等多款音乐模型,谷歌(MusicLM)、OpenAI(MuseNet and Jukebox)、Meta(MusicGen)等巨头也在投入音乐AI。如果海量训练素材都以付费许可为前提,从初创公司到大平台在内的整个人工智能行业都会受到明显的法律和经济障碍。
Suno案另一个影响整个人工智能行业的关键点在于这场法律竞赛的争点不单指向大模型生成结果,而且前移至大模型数据预训练的争议。对比一下就很清楚,即使大模型生成结果确定侵权也只影响个案,并不会影响生成式模型本身的合法性问题;如果数据训练侵权,影响的就是大模型必不可缺的预训练阶段的合法性,这一点至少在音乐AI产业上是明显的。
进一步解释,文字大模型虽然对训练素材需求极大,但是选择面和可替代性同样也很大,即使缺乏部分优质训练素材也难以对模型能力产生太多影响。举一个反例,百度坐拥百度文库、贴吧和知乎等海量文字内容,但文心大模型却很难说是中文大模型里生成质量最好的。
相比之下,音乐大模型能够使用的训练素材范围就收窄了很多,尤其具体到特定时代、主题、类型、风格、乐器和音乐人等,例如20世纪初纽约爵士乐手Charlie Parker的风格,再好的模型没有针对性的细分类型训练素材,也必然会在生成时偏离主题。
对于音乐AI而言,Suno案的意义并不是娱乐和AI两个行业一次照例碰撞,而是被告无路可退而不得不面对的一步胜负手。Suno在本案中的无法妥协实际在情理之中,但出乎意料的是,Suno在收到诉状后毫不犹豫地在CEO声明以及提交法院的意见中采取了异常强硬的态度,甚至像对诉讼期待已久。
Mikey Shulman作为Suno创始人兼CEO,似乎非常享受AIAA的起诉,在名为The Future of Music的官方声明中斗志昂扬地展开全面反击,直指原告“在事实和法律上都存在根本缺陷,而被告才是专为原创音乐而生(designed for original music)”。Shulman还表示,Suno“无论是在制造产品还是在用户使用产品方式上都重视原创,比所有业内其他公司都积极保护原创,采取了无数措施(myriad controls)鼓励原创并防止违法复制(他人音乐)”。【8】
和Shulman浑身散发的斗犬气场相反,AIAA只以标准的外交辞令回应Suno的反宣战。结局终将由法庭决定。
第二章:应当分别判断数据训练和结果生成的合法性
1. 原告主张和法律依据
在RIAA诉Suno案(Case 1:24-cv-11611)起诉状中,原告(集体)主张的救济请求(PRAYER FOR RELIEF)和法律依据主要包括:
A,....;B,依据《美国版权法》第17条、第28条申请对被告的初步和永久禁令;
C,依据《美国法典》第17编第504(c)条主张每件被侵权作品15万美元的赔偿或依据《美国法典》第17编第504(b)条主张实际损害赔偿(原告将在庭审中公布金额)。【9】
由于美国版权法列举版权权项时采取弹性的伞状规定方式,本案的原告诉求也只抽象提到被告“the infringement of any of Plaintiffs’ exclusive rights under federal law……insound recordings”,要了解原告主张被侵权利的具体范围以及针对的是被告模型的训练行为还是输出(生成内容)行为,都需要分析起诉状主文。诉状主文中,可以判断具体权利主张的部分依然存在不确定性,但其中和诉求关联度高的部分包括第9、10、46项以及63项,明确包含了数据训练:
9. Suno训练的内容是显而易见的。Suno大量复制原告受版权保护的录音并将其输入其人工智能模型,只有通过大量复制各个流派、风格和时代的艺术家的录音,Suno的产品才能如此工作。换言之,如果Suno未复制原告的录音并将其纳入其人工智能模型,那么Suno无法以自己宣传的品质大量生成高度模仿人类作品的音乐……
10. 如果说对Suno公司未经授权的复制行为还有疑问的话……Suno 没有否认或提出任何事实来削弱这些指控……Suno本可简单说自己使用了合法获得的录音,相反,Suno回避事实虚伪地声称其训练数据是“机密商业信息”,还声称其大规模复制录音属于“合理使用”(fair use)……
46. 基本点在于Suno的模型需要大规模录音(requires a vast corpus of sound recordings)才能生成高度模仿人类音乐的合成音乐文件……
63. 进一步证明Suno(使用)未经授权复制特定的受版权保护的录音。Suno模型生成包含可识别的制作人标签(producer tags)。制作人标签是某些艺术家或制作人包含在录音中用于识别他们与特定录音的关联的短而独特的音律。制作人标签是独一无二的,可以立即被粉丝识别……这强烈表明Suno使用受保护的录音进行训练(trained on the protected sound recordings of a given producer)……
结合RIAA起诉状中诉讼请求及主文陈述,虽然仍无法确定原告主张版权保护具体权项的范围,进而也不能确定原告主张被告为模型训练还是模型生成承担侵权责任,但诉状已指明,在模型训练且举证模型生成结果和原告版权保护内容高度近似的情况下,原告在诉讼中有绝对主动权把火力同时前推到模型利用原告音乐素材进行训练,以及后置到模型生成内容和原告版权内容近似。原告同时主张Suno AI的预训练和生成内容分别侵犯复制权与改编权,会形成对大模型釜底抽薪式的全流程打击。
附加一点说明,虽然AIAA主张权利时使用“录音制品”(sound recording)而不是“音乐作品”(musical works),但这不代表原告只能主张邻接权。AIAA和创作者的标准协议是买断全部音乐版权,唱片公司在美国诉讼中也都以录音制品权代替中国法下的音乐作品版权,因此本文案件分析默认原告版权归属无争议。
2. 模型训练与结果生成应该进行单独而不是整体判断
我在先前文章中对数据输入和结果输出的相互独立已做过分析【10】,可以配合以下深入论证一并阅读。
(1)为什么流行整体判断论
版权界对AI版权侵权争议的通常分析,模型训练和结果生成两个阶段普遍被合并在一起讨论。从一般逻辑思维出发,模型不经过数据训练无法生成有意义的结果,因此数据训练和结果生成有因果关系,进而可以合并成一个法律行为进行整体评价。AIAA在诉状中多次强调,Suno使用原告版权内容进行预训练和生成与原告内容近似结果之间的一致性(如主文第9项),也是基于将模型输入(训练)和输出行为一体化的逻辑。
如果按前述逻辑,将模型训练与生成行为一体化,这种可称为整体判断论的观点意味着输入端和输出端在法律判断上无法相互独立。在整体判断论的整体判断模式下,对输入和输出中任何一个环节的侵权判断都会影响甚至覆盖对另一个环节的判断。
在版权合理使用制度形成和兴起伊始,“使用”就主要针对再次创作或者传播过程中与复制在先作品内容有关的行为。在形成合理使用制度的这种环境下,很容易默认预训练阶段的合理使用判断与模型生成结果紧密相关。
例如美国法院通过Campbell v. Acuff-Rose Music, Inc等一系列判例,形成关于作品使用改变原作品的表达方式而形成不同的目的或意义作品的情形下可主张合理使用的转换性使用。很多学者认为,模型生成结果是否属于对在先作品的转换性使用将决定预训练是否可以主张合理使用。
美国联邦最高法院2023年5月18日在安迪·沃霍尔基金会诉戈德史密斯(Goldsmith)一案(下简称“AWF”案)【12】判决中认定Andy Warhol未经许可,根据歌手Prince的照片二次创作的头像的行为不属于转换性使用,从而不能主张合理使用的抗辩后,国内外都有学者认为该判决“不利于人工智能服务提供者利用合理使用制度进行抗辩”【13】,美国著名版权教授金斯波格也在重点分析前述AWF等案判决后认为机器训练不符合合理使用。【14】
(歌手肖像)
(被告图片)
AWF案的判断逻辑和RIAA诉Suno案在模型生成内容侵权判断的逻辑可以说是一致的,但和预训练毫无关系。把模型数据训练和内容生成这两个不同行为强行抽象成一个行为加以法律判断,在事实和逻辑上都是错误的。模型在预训练之后并不是直接生成内容,而是将训练素材“转化”成复杂的高维参数,形成模型自己的知识积累。这种所谓的转化本质上就不是版权法意义的转化和使用,是版权转换性使用制度从提出到现在都不能预见,也无法覆盖的。
(2)模型训练和生成行为相互独立
数据训练和结果生成是两个在时间、对象和行为外观上都独立的行为,应该进行独立判断。不仅如此,AI模型从输入到输出之间并非直达,其中可以包括微调(fine tuning,例如图像生成中普遍加挂的LORA)、参数设置、用户提示等环节,这些对最终结果都可以产生重要影响。
我在先前文章中讨论过,“在很多情况下生成式AI生成具体内容的过程并不是由大模型独立完成,而是由大模型、训练数据集、用户等多方主体参与和共同决定”。广州互联网法院在审理(2024)粤0192民初113号案(即被很多媒体称为”AIGC平台第一案”的新创华诉某AI公司侵犯奥特曼版权案)时,也在面对被告作为AI服务提供者并不涉及系争模型训练行为情况下,在判决中只认定被告侵权,但未支持原告要求被告将涉案版权素材从训练数据集中删除的诉求。【15】
以Suno案进一步分析,被告在模型训练阶段可能涉及侵害的权项是复制权,输出阶段可能涉及侵害的权项是网络传播权(在美国法则以表演权伞状覆盖网络传播权);训练阶段主张合理使用的依据是机器以学习为目的,输出阶段则没有以同样理由主张合理使用的空间。
因此,模型训练和生成是涉及两个不同法律关系的不同法律行为,两个环节从侵权到抗辩都不一样,因此对其中一环的法律性质判断并不必然影响另外一环。
(3)模型训练和生成之间没有线性因果
这一节应该是对模型训练与生成关系最有意思的分析。如前所述,模型训练与生成之间在行为上相互独立。不仅如此,训练与生成两个行为之间的关联方式也并非很多人默认的直线因果,而仅仅是抽象的概念因果。概念上的因果关系不同于具体的因果链条,输入与输出之间并非一一对应,在很多场景下甚至无法进行因果推导。
生成式预训练和人类的理解模式是完全不同的,通过提取数据分布规律理解训练素材数学特征形成预测最优概率结果的技术原理,可以参考本公号去年8月开始发表的一系列AI法律研究文章。在这里,我们只解释AI经过充分训练会产生用以理解现实世界的模型,并在此基础上形成将预训练获取的数据关系特征主动泛化到类似场景,进而能够根据用户提示进行生成/输出。
从模型输入到输出之间还有一个模型通过理解素材生成泛化能力的中间过程。这个带有典型复杂系统科学定义下涌现特征且尚无法完美解释的中间过程,是模型的生成过程难以进行反向而被称为盲盒机制的原因。
模型通过训练捕捉数据分布规律并形成组建世界模型的参数,这些作为中间过程结果的参数和特定训练数据/素材之间不存在具体映射,其间的关联性已经不可解释,打断了输入和输出之间的直线因果链条。中间过程的出现使得输入必须经过中间层的解释才能实现输出,并不是对训练数据/素材的简单重复或者组合,这进一步阻断了输入和输出的线性因果。
为说明线性因果和抽象因果之间的区别,以下举一个可能是最合适的例子:
如果在咖啡机里磨咖啡豆,咖啡豆和咖啡是线性及具体的因果关系,从输入可以推导输出,同样,输出可以反推输入;如果喝咖啡刺激多巴胺分泌,每天多写一篇文章,那么多写的这篇文章与喝咖啡之间就是抽象和概念的因果。尽管前例中存在概念因果,但咖啡刺激只能影响提高写作的生理驱动,和文章内容之间并没有对应的关系。
综合以上,模型训练和生成行为之间概念性的关联远不足以将两个行为作为同一整体判断,应当坚持对预训练和生成做相互独立的法律判断。
Tips:模型训练和生成之间的常态是没有线性因果,但在两种情形下也会产生例外:
其一是训练和生成内容都是事实问题,例如1921年诺贝尔物理学奖获得者是[爱因斯坦],此处括号内的事实是唯一的,所以训练数据和输出内容必须一致;
其二是训练数据过少或模型技术不成熟,使模型生成结果与训练内容过度近似。本案原告在诉状主文第45项也提到当AI模型输出内容与训练数据过于接近,即为“过拟合”(overfitting)的机器学习现象。但是从诉讼角度分析,既然唱片厂明确主张被告故意侵权,却主动将被告行为归结为技术错误,诉求和陈述自相矛盾。这可能是原告在诉状中过于追求算无遗漏和全面覆盖,实际变成了言多必失。
三、模型生成内容的侵权判断
1. 原告版权内容是Suno训练的必选项
如前文分析,在对预训练和内容生成两端独立进行的侵权判定中,音乐模型在训练端先天体质虚弱。所有类型的大模型都需要尽可能多的训练素材,但音乐模型可供训练的素材相比文字模型相当有限。小众或者个人风格的音乐素材稀缺,模型或者放弃训练,或者很容易因训练素材过少而出现过拟合。
2. 被告承认使用
自从Suno打算把诉讼变成为自己宣传的讲堂,就没打算藏着。Suno不仅公开教育原告“这起诉讼在事实和法律上都存在根本缺陷”“各大唱片公司显然对我们的技术运作方式存在误解”,而且一点也不见外地承认了自己“利用在开放互联网上可以找到的中高质量音乐来训练我们的模型……开放互联网确实包含许多受版权保护的材料,其中一些归主要唱片公司所有”。
有点让人吃惊的是。Suno一点也不考虑AI同行在公开场合都绕开解释训练数据来源的避讳,紧跟着补了一句:“就像谷歌的Gemini、微软的Copilot、Anthropic的Claude、OpenAI的ChatGPT,甚至苹果的新款Apple Intelligence都在开放互联网上训练他们的模型一样”。
虽然从逻辑上说,如果Suno拒绝承认使用原告音乐素材训练是不合逻辑的抗辩,但如此主动承认,而且要拉同行集体下水也是第一回见,感觉差点就能看到AI行业祖坟冒烟。
3. 原告证据充分
诉讼终归基于事实和法律。从唱片厂诉Suno案起诉状披露的原告举证可以看出,原告版权内容和模型生成内容在旋律上确实过于相似,歌词更要几乎吻合了。
原告版权音乐Score: Johnny B. Goode (Chuck Berry)
被告生成音乐Score: Deep down in Louisiana close to New Orle (Suno)
Case1:24-cv-11611 Document1 Filed06/24/24 Page18 of 34
原告版权音乐Score: Johnny B. Goode (Chuck Berry)
被告生成音乐Score: Deep down in Louisiana close to New Orle (Suno)
Case 1:24-cv-11611 Document 1 Filed 06/24/24 Page 19 of 34
Suno在本案答辩意见中认为,原告主张被告模型输出争议内容构成侵权是错的,理由是“版权专有权 ……不得延伸至其他独立制作的录音(音乐),即使这些音乐模仿受版权保护的音乐或与其高度近似”。
被告这个抗辩显然无法得到支持。裁判当然要考虑版权保护并不排斥他人原创相同内容(假设巧合),但是版权侵权判定同样遵守类似商业秘密侵权判断中的接触+相似原则,即在被告接触过他人先前的创作内容后,再以自己的事后原创作为抗辩,这在没有其他合理理由的情况下会被驳回。
另外,我始终认为并无必要寻求在现有法律规则之外为AI定制一套版权侵权的判断标准。这首先从理论到实操都毫无必要(而且可以说是错误的),其次是为人类和AI分别设立差异化准则会导致其中任何一处规则洼地都会成为未来规避侵权的目标。
按和人类行为同等的法律判断标准来看,Suno在本案中模型生成结果的侵权争议部分败诉当无悬念。
Tips:继续赠送大模型法律实务的重要技巧。
本文坚持应当对模型训练和生成视为各自独立的行为分别进行合法性判断,这也意味着,即便数据训练适用合理使用也不等于可以为模型生成内容的合法性开绿灯。所以防止输出内容发生显而易见的侵权是模型提供方的基本合规义务。
举个简单例子,问马斯克家的大模型GROK2在图像生成有哪些限制,模型回答……“我避免生成任何明显受版权保护的艺术作品、商标或品牌的直接复制品”。以上回答满分。
不过测试一下(网络截图经核实),果然做的和说的不是一回事。GROK2迅速忘了合规,一锅端掉迪士尼和索尼两家,连星球大战的光剑都没忘带着:
和GROK2的心口不一相比,直接让GPT给出GROK2同命题的出图,两家模型合规水平请自行对比:
四、预训练应当坚持适用合理使用
1. 合理使用的重大争议
在去年《人工智能数据训练的法律竞争》和今年《人工智能立法与合规中的版权挑战》这两篇文章中,我都认为全球范围主流国家和地区,包括欧美日韩以色列等都倾向支持模型预训练适用合理使用,建议中国在既有规则和立法态度都不明确情况下应当向合理使用跟进。【17】
随着欧盟AIA通过并生效以及德国汉堡地方法院在LAION案中依据和欧盟法一致的德国版权法首次确认模型训练可主张TDM的版权保护例外,数据训练可适用合理使用的观点在版权界的争论中开始占据主流。
AIAA诉Suno案争点除了模型生成内容是否侵权外,原被告双方在模型使用原告版权内容训练的合法性问题也针锋相对。当然音乐界和模型厂的版权冲突并不局限在本案,包括音乐模型圈至多算后起之秀的TikTok也被评论为“如果主流唱片公司的内容从该平台上消失,而由人工智能独立驱动的创作又以某种方式成功填补了这一空白,可以说TikTok已经完成了音乐行业历史上最大的抢劫之一”【18】。
Suno在答辩状中表示,训练只是对素材制作服务于合法输出的“中间副本”,并如猜测一般主张模型训练当然适用版权法下的合理使用。【19】
预训练的合理使用争议法理复杂,并将对未来科技与人类社会发展产生根本性影响。本文沿续在先文章基于大模型技术本质、合理使用法理与立法趋势对预训练适用合理使用进行的论述,结合本案进一步阐述预训练适用合理使用的理由。
2. 数据训练合理使用的根本问题
(1)法律规则趋于支持合理使用
全球立法和趋势
从全球主要法域来看,欧盟已经立法支持预训练可援引TDM适用的合理使用;日韩等尚未进入专门立法程序但立法机关态度明确支持;美国联邦两院和多个核心州议会在各自范围内大规模调研,但立法资源看起来会优先解决AI监管规则。由于美国版权法107条规定的合理使用制度具有高度抽象和概括性,美国似乎乐意把模型预训练的版权争议交给法院,依靠解释版权法在判例中建构答案。
对此,美国学界相对多数的观点认为“美国法院可能会发现,在合理使用豁免条款下使用受版权保护的作品来训练人工智能系统是可以接受的,该条款允许在某些情况下在未经许可的情况下有限地使用受版权保护的作品”。【20】
网信办等部委在2023年发布的《生成式人工智能服务管理暂行办法》(下简称“暂行办法”)在第7条规定:“生成式人工智能服务提供者(以下称提供者)应当依法开展预训练、优化训练等训练数据处理活动,遵守以下规定:(一)使用具有合法来源的数据和基础模型;(二)涉及知识产权的,不得侵害他人依法享有的知识产权;……”。
《暂行办法》对数据训练的规定字面上看很严格,实际上仍有相当留白空间。尽管第7条明确要求数据来源合法并禁止使用侵权内容,但该条规定不能用来排除适用合理使用,并不等于强制训练数据必须获得授权。
司法政策事实上支持中国对数据训练适用版权保护例外。最高院早在2011年就在《关于充分发挥知识产权审判职能作用推动社会主义文化大发展大繁荣和促进经济自主协调发展若干问题的意见》第8点中规定中国适用合理使用的司法政策:
“妥当运用著作权的限制和例外规定,正确判定被诉侵权行为的合法性,促进商业和技术创新,充分保障人民基本文化权益。正确认定合理使用和法定许可行为,依法保护作品的正当利用和传播。在促进技术创新和商业发展确有必要的特殊情形下,考虑作品使用行为的性质和目的、被使用作品的性质、被使用部分的数量和质量、使用对作品潜在市场或价值的影响等因素,如果该使用行为既不与作品的正常使用相冲突,也不至于不合理地损害作者的正当利益,可以认定为合理使用……”。
中国对模型训练的现有版权规则在字面含义上可解释性很大,从趋势来看,随着对AI版权规则研究及实践的增加以及全球立法转向的明朗,中国在未来1~2年内通过立法或者司法解释接受模型训练适用合理使用是合乎情理且大概率会实现的。
事实上,这会引出另一个深层的问题,即将模型训练纳入立法合理使用范围,会对中国这些年来徒受供奉而实为蒙灰的合理使用制度现状产生冲击。不过这一项不在本文讨论范围,以后另文论述未来中国合理使用的立法和司法问题。
立法外的指引和规范
AI治理领域一个可观察到的现象是技术领先法律,立法领先行业规范。在部分问题上,还可以加上一项司法领先学术。面对人工智能这样人类文明与之毫无经验又有强烈颠覆性的技术,法学界和规范圈显得比立法更加保守。
国际知识产权组织(WIPO)在2024年3月发布的《生成式AI知识产权导航》侵权风险章节中提到,关于使用受知识产权保护的材料训练人工智能等是否构成侵权,在全球范围内尚有待决诉讼。
WIPO手册进而在风险解决方案部分建议:“仅在许可的公共领域或用户自己的训练数据上进行训练的生成式人工智能工具;选择人工智能工具时,选择愿意对知识产权侵权(特别是版权侵权)提供合适补偿担保的供应商;在训练或微调生成式人工智能时彻底审查数据集,验证 IP 所有权、AI训练许可证覆盖范围以及知识共享许可证的合规性。”【21】
全国网络安全标准化技术委员会2024年2月29日发布的《生成式人工智能服务安全基本要求》【22】第5.1“语料来源安全要求”部分中规定:“1)使用开源语料时,应具有该语料来源的开源许可协议或相关授权文件。2)使用自采语料时,应具有采集记录,不应采集他人已明确不可采集的语料。3)使用商业语料时:应有具备法律效力的交易合同、合作协议等……”
相应地,《基本要求》在5.2“语料内容安全要求”之b知识产权方面,进一步要求服务提供者:“1)应设置语料以及生成内容的知识产权负责人,并建立知识产权管理策略;2)语料用于训练前,应对语料中的主要知识产权侵权风险进行识别,发现存在知识产权侵权等问题的,服务提供者不应使用相关语料进行训练;例如,语料中包含文学、艺术、科学作品的,应重点识别语料以及生成内容中的著作权侵权问题;3)……”
显然WIPO基于使用第三方受版权保护内容训练AI是否侵权尚未有定论,建议获得授权再进行训练。网安技术委员会《基本要求》则以绝对安全和风险零容忍的立场,单向强化风控而放弃考虑合理使用的可能性。这些指引规则所体现的认知明显偏离模型数据训练的技术本质,不足以作为对合理使用的立法参考。
(2)复制,还是临时复制
模型训练适用合理使用最大的难题是训练过程以对素材/语料的整体复制为前提。虽然版权法并没有规定复制行为不能主张合理使用,但要给大量复制受版权保护内容适用合理使用一个合乎法理的解释难度显而易见。
支持合理使用的一种思路是将数据训练中的复制解释为临时复制,王迁老师就认为,数据训练过程中的复制属于临时复制,且中国并未将临时复制视为著作权法规范的复制行为,从而支持模型预训练无需以许可为前提。【23】
除了难以根据中国法没有规定临时复制,以及若干国际会议中的谈判意见就得出中国版权法不规制临时复制的结论,从字面意义上看,临时复制论最大的障碍还是“临时”标准的适格性。
各国版权法凡承认临时复制都强调复制行为的临时性,但即使在素材复制并进入模型训练过程后,假设不同模型采用的神经网络和算法效果均等,训练时间的长短在训练数据体量以及通常由GPU决定的算力差异情况下的区别也会非常大。在理论上和实践中都可以将训练拉到很长时间,这与临时复制在早期专指网络传输以及电脑开机读取关机消失的短暂复制是显著不同的。
在本文前引310 O 227/23号Kneschke诉LAION侵权案判决中,德国汉堡地方法院在德国法允许以临时复制作为“法律允许的使用行为”即版权保护例外的情况下,没有接受被告以临时复制进行的抗辩(转而支持适用科学研究目的数据和文本挖掘抗辩)。判决给的理由是被告训练用数据集对原告内容的复制“既不短暂,也不是伴随(附随)”,因此不满足德国法对临时复制的时间短暂性和目的附随性的要求。
我对汉堡法院判决的疑问在于,虽然数据训练过程中的复制时长并不短暂,但数据训练中对素材的使用并没有训练/学习以外的目的,因此符合伴随的要求。不过只满足伴随性一条尚不构成临时复制,而以学习为目的显然更适用直接主张合理使用。
总而言之,本节意见并不赞同用临时复制解释数据训练行为。正确建构数据训练的合理使用制度,最合适的角度是放弃对复制行为外观的过度关注,转而从训练过程中复制行为的本质和目的寻找新规则的基石。
(3)机器学习和人类学习
机器学习和人类学习是平行的学习行为
数据训练是机器学习的核心环节。复制在整个数据训练过程中都是训练的附随和基础环节,学习是复制的唯一目的。模型数据训练之所以应当适用合理使用,根本原因不在于利益平衡原则,更不在于产业促进,而是作为数据训练本质与核心的学习。
数据训练通常被称为机器学习或特征学习,是因为模型通过从训练数据中提取结构特征和分布规律转化成参数体系,形成模型自己的知识集。模型在数据训练完成后并不需要保留原始数据,作为训练结果的模型参数也不直接与原始数据一一对应,而是对数据的高层次特征和规律的抽象表示。
如前所述,复制是模型训练过程中不具有独立目的的附随行为,而模型对素材/语料的训练不符合版权法下任何类型的“使用”。准确地说,版权法领域唯一和数据训练接近的概念是学习。
根据机器学习的基本原理,假设模型训练使用了尚在版权保护期的米老鼠形象,目的并不是复制也不是记忆具体形象,而是习得老鼠形象的卡通画法,掌握特定类型内容的表达规律和方法。因此机器学习和人类学习虽然在路径上相互平行,但本质都是学习行为。如同对模型生成内容适用人类主体行为同样的版权侵权判定标准,适用同样规则平等规范机器学习和人类学习既符合客观事实也符合法理。
“个人学习”不阻碍机器学习适用合理使用
中国法体系下对数据训练适用合理使用规则的一个障碍是《著作权法》第24条。前述法条规定:“在下列情况下使用作品,可以不经著作权人许可,不向其支付报酬,但应当指明作者姓名或者名称、作品名称,并且不得影响该作品的正常使用,也不得不合理地损害著作权人的合法权益:(一)为个人学习、研究或者欣赏,使用他人已经发表的作品……”。
从形式上来看,模型数据训练中对作品的使用不符合“个人学习、研究”中包含的使用主体条件。但正如《人工智能已经成为版权法基因组的编码》中所讨论,AI法律立法和研究的最大困境是人类完全没有规范甚至没有想象人工智能的经验:“人类不仅欠缺治理人工智能的法学经验,在伦理学、社会学、政治学、神学甚至神话中都没有为人工智能预留空间。法学理论是在对社会经验的提炼和验证中逐步建构,而对人工智能而言,所有制度和经验都在从零开始”。
正因为人类立法有史以来从未预见过人工智能,局限的经验必然产生缺陷的立法。更何况在模型训练问题产生前,本处对“个人学习”的规定就显现短板,在集体学习场景中不得不解释为化整为零到个体。
解决《著作权法》第24条“个人学习”规定的限制可以通过立法也可以通过对法律文字的扩大解释。正如法理学中的一个经典桥段:美国宪法伊始就赋予总统担任陆军和海军总司令,但美国总统在空军诞生后一直到1947年《国家安全法》确立总统对空军的领导,都是通过不成文的扩张解释默认获得空军的最高管理权。
数据训练应当受版权法约束
本文前述已解释模型数据训练(机器学习)不符合版权法下任何类型的“使用”,类似观点中也有直接主张因此将数据训练排除在版权法规范之外进而可以支持无需获得版权许可即可进行模型训练。例如陶乾老师认为“著作权法意义上的使用,指向的是表达性使用,又称为作品性使用、展示性使用,是对作品中的独创性表达的直接或间接再现。”鉴于著作权法意义上的作品使用指向的是“表达性使用”,故(数据训练中)这种“非表达性使用”不落入著作权人专有权利的控制范围。【24】
将数据训练视为版权法化外飞地,在理论上有两个解决不了的障碍:
首先,“非表达性使用”不是中国著作权法下的规则。而只是学理概念,并且非表达性使用也可能受版权规制。计算机代码的复制和使用都属于纯粹功能性,例外于表达性使用,但代码的复制和使用同样受版权保护。
另一个例子是拓扑图或其他工业图纸从平面到屏幕的复制仍受版权保护,从平面到立体的复制不受版权规制。但这种例外是因为从图形作品变成产品之后,权利客体由版权项下转到工业产权项下(集成电路布图设计专有权或外观专利权),这类客体和权利类型变化不能用来解释模型数据训练和版权法的关系。
其次,从数据获取到输入机器并进入训练,即使训练不属于“使用”其中也至少有两次甚至更多次具体的复制行为。要解释这些具体行为应做同一法律判断,前提是这些具体行为都具有相同的目的,而唯一的共同目的必然是“学习”。学习目的既是唯一贯穿训练全流程的线索也可满足合理使用要件,合理使用才是数据训练版权争议的唯一解。
3. 如果接受合理使用,这个世界还会好吗
(1)对合理使用最好的批评者
在所有反对数据训练适用合理使用的观点中,最有挑战力的质疑并非来自法学界也不是版权产业,相反来自一位AI技术专家。
身为现加州伯克利分校教授和前OpenAI顾问的Pieter Abbeel是知名的机器学习专家。Pieter在接受刘润采访时表示,AI学习数据应该获得数据权利人的同意,并大义灭亲地解释了人类学习和机器学习的区别:
“你花100美元买一本书。然后因为学习了这本书里的知识而赚了钱,是不用把钱分给书作者的。因为你已经付过钱了。你付了100美元……但是,AI不一样。AI学完这本书之后,很可能全人类就不用学了。他们问AI就行了。也就是说,理论上一本书的作者,未来可能只有一位读者,那就是AI。因此,这位作者写一本书,就只能赚到100美元。100美元养不活一位作者。于是人类将会失去创造知识的动力。而因此,人工智能也再无知识可学”。【25】
请允自夸……有两个原因使Pieter教授观点惊了我一下,首先教授的观点确实洞察力过人,其次这个问题和我发现并用几个月思考才找到答案的问题正好是针对同一命题的两个方向。我发现的问题是,合理使用中个人学习的版权例外是根据人类学习规律制定的规则,而机器学习的效率则不是人类可以相提并论的。假设普通人一生学习一千本书,以OPEN AI的GPU加TPU算力集群火力全开训练一个全新模型可能耗时用小时作为计算单位。
所以问题来了,为人类学习制定的法律制度,用在机器学习也合理么?
(2)然而合理使用依然合理
尽管Pieter教授发现了机器学习和个人学习的差别,然而机器学习适用合理使用仍然合理。
首先,人类学习和机器学习的底层都是学习,不能对同一性质的行为厚此薄彼施加区别规则;
其次,个人学习的受益者更多是个体本身,模型作为智能工具的最终受益者是全人类。不但可以说AI是当下人类共同财富,更可以说AI正在改变未来人类共同体的命运;
再次,没有人会因为GPT读过《权力的游戏》就心满意足,必然要亲自看过才算。即使在科研领域,AI也是在正向配合而不是直接替代人类;
最后,需要大量数据训练的不止基础模型,Transformer架构下大模型和定向用途的小模型包括微调数据集都需要使用巨量数据。如果数据训练是以付费为基础,结果会是推动整个人工智能领域形成高度垄断,变成大富翁游戏。
传闻谷歌从Reddit购买预训练授权的金额高达数千万美元,训练内容的版权费用也消耗了以亿计算的美元(OpenAI在硬件设施……投入70亿美元,员工的工资是15亿美元左右,再加上其他版权费用等已经花掉了100亿美元……不过呢……奥特曼兜里的钱是不够买视频素材训练的)。【26】
有点悲伤的是,即使模型为训练付费,也未必能见将收益分配给创作者。美国出版商Wiley通过向某家公司提供内容用于AI训练,收入高达2300万美元。而这些巨额收入与论文作者没有任何关系。【27】
数据训练是人工智能的必备,而人工智能是推动社会进步的力量。人工智能是全人类的共同财富,也是人类文明越来越重要的一部分。对数据训练适用合理使用本身既符合法理逻辑也有充分的合理性。
(3)合理使用不排除其他策略
认可数据训练可以适用合理使用并不代表版权人没有议价能力。在法律上,版权人仍然可以通过设置反爬虫措施和声明版权保留排除用于数据训练,同时尤其对高质量内容平台而言会有包括开放时效性内容、许可在生成内容中引用原文等更多商业手段压制模型方谈判合作。
头部大模型和有影响力的内容平台付费合作案例远不止谷歌和Reddit,OpenAI也和Reddit达成许可,并与主流平台新闻集团(News Corp.)就访问和使用《华尔街日报》《MarketWatch》《巴伦周刊》《纽约邮报》等知名出版物的最新以及历史文章达成授权。
OpenAI合作的知名期刊还包括《Vogue》《纽约客》《GQ》《建筑文摘》《名利场》《连线》《财富》《时代》《企业家》《明镜》等。甚至连后起的AI搜索引擎Perplexity为避免纠纷,也推出了和出版商分成的商业模式,并与WordPress.com等内容平台展开合作。
机器学习和人类学习一样符合合理使用制度的原理和条件,而贯彻模型输入和输出侵权判断两分法可以有效防止模型生成内容侵权,截断把AI变成避风港的可能。人工智能是历史和科技发展的重大趋势,如果版权合理使用制度在模型数据训练中缺席,将同时损害人工智能的发展以及版权法自身的合理性。
参考资料:
【1】<ANSWER OF DEFENDANT SUNO, INC. TO COMPLAINT>,https://fingfx.thomsonreuters.com/gfx/legaldocs/zjvqymadevx/USA%20COURT%20MUSIC%20COPYRIGHTS%20sunoanswer.pdf
【2】肖漫:《抄不了特斯拉的作业,“蔚小理华”可咋整》,https://www.huxiu.com/article/3385886.html
【3】林华:《人工智能数据预训练的法律竞争》,https://mp.weixin.qq.com/s/N8qbAPDM7bUcuMUfBDV8Vw
【4】804 F.3d 202 (2nd Cir. 2015)
【5】487 F.3d 701 (9th Cir. 2007)
【6】林华:《从第一案抢跑看OpenAI vs Journalism的未来》,https://mp.weixin.qq.com/s/ANlCaTST-3ra479YJOTaXg
【7】判决书<LG-Hamburg-310-O-227-23>见https://www.lausen.com/en/lg-hamburg-kneschke-v-laion-e-v/,除非德语专家否则建议下载后机翻再阅读。案件摘要也可见网络法实务圈:《德国法院作出里程碑式判决:非商业性人工智能训练数据不构成版权侵权!》,https://mp.weixin.qq.com/s/WZWb-kWF6bFC_50moPnNAA
【8】Mikey Shulman,<The Future of Music>,https://suno.com/blog/future-of-music
【9】<COMPLAINT of Case 1:24-cv-1161>,Document 1 Filed 06/24/24, https://www.riaa.com/wp-content/uploads/2024/06/Suno-complaint-file-stamped20.pdf
【10】林华:《人工智能数据训练的法律竞争》,https://mp.weixin.qq.com/s/N8qbAPDM7bUcuMUfBDV8Vw
【11】510 U.S. 569 (1994)
【12】143 S. Ct. 1258 (2023).
【13】宋海燕 尚文迪 金杜研究院:《生成式人工智能时代下:析美国联邦最高法院Goldsmith案中的合理使用新标准》, https://mp.weixin.qq.com/s/eCIOyhQymX7DJ4bcscx8OA
【14】Jane C. Ginsburg:《美国法上的合理使用再探:合理使用在人工智能时代的未来》,https://mp.weixin.qq.com/s/rZt2Mg3bz7NsTC7A4Tct0w
【15】同6
【16】同8
【17】同10
【18】Murray Stassen, <Is TikTok about to pull off a heist on the music industry?>,https://www.musicbusinessworldwide.com/is-tiktok-about-to-pull-off-a-heist-on-the-music-industry/
【19】<ANSWER OF DEFENDANT SUNO, INC. TO COMPLAINT> Case 1:24-cv-11611-FDS Document 28 Filed 08/01/24
【20】凯特·克劳福德、杰森·舒尔茨:《生成式人工智能给版权法带来危机》,https://issues.org/generative-ai-copyright-law-crawford-schultz/
【21】<Generative AI: Navigating Intellectual Property>,https://www.wipo.int/export/sites/www/about-ip/en/frontier_technologies/pdf/generative-ai-factsheet.pdf
【22】SAC/TC260
【23】王迁褚楚:《人工智能与著作权边界初探:技术进步下的法律挑战与思考》,https://mp.weixin.qq.com/s/dEdTLBHbL32_oAO76ze9EQ
【24】陶乾:《基础模型训练的著作权问题:理论澄清与规则适用》,https://mp.weixin.qq.com/s/lbKXALUtxWfFdfC92SJDfg
【25】刘润:《我对OpenAI,知之甚少》,https://www.163.com/dy/article/JBCVKLGV05199MO5.html
【26】《提升100倍!OpenAI考虑订阅价格为2000美元每月》,https://mp.weixin.qq.com/s/AZ2hv2oy8naVs9j0KywL9g
【27】澎湃新闻:《学术论文正被高价出售给大模型训练,作者却零收入》,https://baijiahao.baidu.com/s?id=1807522648968395930&wfr=spider&for=pc
本文来自微信公众号:林华,作者:林华
相关推荐
大模型深陷版权博弈,数据训练坚冰将破
AI数据荒下的创业众生相:盗用GPT-4生成数据训练模型,引发投资人担忧
AI要被卡脖子了?训练大模型的数据或在2026年耗尽
美媒揭秘大模型训练数据集:部分内容有些“脏”
AI大模型版权问题,为何各国逐渐倾向“豁免”?
赔光 OpenAI?!研究人员:版权诉讼不休,其实大模型普遍存在“抄袭”现象
用个人数据训练人工智能,面临哪些法律争议?
AI巨头们,都在用盗版书籍训练模型?
AI音乐大模型背后的技术突破、版权诉讼和资本蛋糕
多名普利策奖得主起诉OpenAI、微软:滥用自己作品训练大模型
网址: 大模型深陷版权博弈,数据训练坚冰将破 http://www.xishuta.com/newsview128865.html
推荐科技快讯
- 1问界商标转让释放信号:赛力斯 94837
- 2人类唯一的出路:变成人工智能 18304
- 3报告:抖音海外版下载量突破1 17856
- 4移动办公如何高效?谷歌研究了 17572
- 5人类唯一的出路: 变成人工智 17409
- 62023年起,银行存取款迎来 10014
- 7网传比亚迪一员工泄露华为机密 8007
- 8顶风作案?金山WPS被指套娃 6471
- 9大数据杀熟往返套票比单程购买 6446
- 1012306客服回应崩了 12 6376