首页科技快讯用GitHub上的开源代码训练人工智能违法吗？

用GitHub上的开源代码训练人工智能违法吗？

来源：晰数塔互联网快讯时间：2023年11月10日 16:50

近日，人工智能公司OpenAI在开发者大会上宣布[i]：如果用户因人工智能生成内容造成版权侵权被起诉索赔，其将向用户提供版权保护盾：为客户辩护并报销过程中产生的费用。其实OpenAI这招是从微软学来的。而微软，则是因为用了开源软件代码训练人工智能被起诉，迫不得已才想出版权保护盾的办法。今天就来聊聊微软被起诉这个的诉讼，以及用开源代码训练人工智能到底有哪些法律风险。

笔者在网上找到了案件的起诉书、微软的答辩意见和美国加利福尼亚北区法院的初步裁定[ii]，今天就根据相关内容介绍一下该案。美国是普通法系国家，法院的审判模式和我国有很大区别，所以我对判决书中的判例引用和制度也都不甚了解，只能挑自己看得懂的案件事实和部分说理做摘要。美国法律上的分析可以参考美国律师这篇文章[iii]。

OpenAI公司开发出一款名为Codex的人工智能生成工具。GitHub推出了基于生成式人工智能的代码自动完成工具Copilot。Copilot是一款面向GitHub用户的订阅工具，月费10美元，年费100美元。根据诉状，Copilot需要Codex才能运行。

2022年11月，两名软件开发者使用化名（为什么用化名起诉，因为有人通过原告律师对原告发出过死亡威胁）提起了假定的集体诉讼，被告为GitHub、微软（作为GitHub的母公司）、OpenAI。原告声称Copilot和Codex作为人工智能工具，其训练中使用了原告受版权保护的计算机代码。

但原告认为，当他们的代码被用作训练数据时，代码附带的开源许可证的版权管理信息（“CMI”Copyright Management Information）被删除了。他们还认定Codex和Copilot生成的作品部分包含了他们受版权保护的代码。原告的诉求包括一系列索赔，违反《数字千年版权法》（DMCA）；违反GitHub用户协议；不公平竞争；隐私权侵权等。

但原告的起诉有一个证据瑕疵：无法证明Codex和Copilot生成的作品完全复制了原告的代码。法院初步调查的结果是：发现了几处Copilot的输出与Github用户编写的授权代码相匹配（matched）的情况，但这些情况都不涉及原告发布的代码。也就是说，有初步证据证明人工智能输出的内容用了Github上的代码，但本案的原告不是代码的作者，所以无权主张此行为侵权。

这些匹配的代码证明原告诉讼事项并非没有依据，故法院在初步裁定书中认定：原告有理由声称，被告的计划至少存在以下重大风险：将复制原告的许可代码并进行输出。

首先，Codex和Copilot的数据训练数据中包括所有公开的GitHub存储库。其次，程序会根据相关提示重现众所周知的代码，并提供几个具体的此类复制的例子。最后，原告声称GitHub自己的内部研究显示，Copilot“大约有1%的时间”从训练数据中复制代码。因此，原告声称的，“如果没有禁令救济，就会存在以下现实危险，Codex或Copilot将复制原告的许可代码作为输出”有一定道理。

虽然法院的初步裁定驳回了原告的很多诉请，比如隐私权，民事共谋和宣告性救济（civil conspiracy and declaratory relief），但这个诉讼如果继续推进，对被告方而言，其人工智能产品会始终处于被法院认定停止侵权的威胁之下，所以目前案件对谁更有利还不好说。

要厘清用开源代码训练人工智能是否侵权的问题，可以看诉状里提到的下面几个问题：

一、人工智能是怎么用开源代码训练及输出的？

根据诉状，原告认为人工智能的训练是算法推演，而不是理解代码后生成结果，至少在诉讼的答辩状里，被告方对训练过程、方法都没有进行回应，只是说认为训练属于合理使用。

原告认为：Codex和Copilot不能理解代码，与人工智能有关的“研究”“培训”和“学习”等词描述的是与人类推理不同的算法过程。也不能像人类那样“理解”语义和上下文，人工智能模型无法像人类一样“学习”，它能检测其训练数据中具有统计意义的模式，并提供从其训练数据中得出的输出结果，在统计适当的情况下，对数据进行分析。这样的“蛮力”方法既不高效，也不可靠。所以Codex和Copilot不能自己生成代码，他们只是用算法推导出用户想要什么，他们生成的结果是多个来源拼凑的。

可能Codex和Copilot这个产品是为了给程序员编程时服务，这个训练的智能跟人类学习区别还是很大的，甚至和ChatGPT生成代码的方式也是不同的。如果诉状所称属实，因为输出的内容都是现成的结果的拼凑，其侵权的可能性确实会比较大。

二、GitHub的用户协议有没有限制或禁止训练行为？

所有上传到GitHub的代码均受GitHub用户协议的约束，该协议条款规定用户保留其上传至GitHub的任何内容的所有权，但授予GitHub存储权，对[内容]进行存档、解析和显示，并制作必要的附带副本，以提供服务，包括不断改进服务。

根据Github的用户协议：“这包括将代码复制到我们的数据库并进行备份等操作的权利；向您和其他用户提供，将其解析为搜索索引或在我们的服务器上进行其他分析；与其他用户共享。”用户协议还规定，用户如果设置了GitHub将授予每位GitHub用户非独占的、全球范围内的许可通过GitHub服务使用、展示和执行。在GitHub功能允许的情况下，内容只能在GitHub上发布。

鉴于用户协议中有代码要“与其他用户共享”的规定，所以，如果代码是开源的，那拿来训练应当也是共享的一种方式，符合用户协议规定。

三、人工智能输出的涉及开源代码的内容是不是符合开源协议？

这里面有三个法律问题，首先是违法问题，根据美国的版权法律[iv]，未经版权所有者或法律授权，任何人不得删除或更改版权管理信息。而本案中，代码附带的开源许可证的版权管理信息（“CMI”Copyright Management Information），在训练时被删除了。这里的版权管理信息的范围要比我国《著作权法》规定的署名权要大，因为除了显示作者或项目的名称，开源协议可能还有其他要求，比如公开衍生代码甚至项目的全部代码。

其次是违约问题，GitHub上有十一种开源协议[v]。每一种都对使用代码，产生衍生代码有明确的条件，并且复制或者以原有代码衍生新的代码都至少应当载明代码来源，所属的开源许可证，如果版权管理信息被删除，人工智能的开发者就会违反开源协议。

还有人工智能使用者侵权的问题。由于版权管理信息被删除，Codex和Copilot的使用者无法判断人工智能生成的代码是否属于开源许可证项下的代码，如果其使用了这些代码，但没有按照开源许可证的要求标明开源代码来源以及其他要求，就会对开源代码的作者构成侵权。可能这也是微软和OpenAi会向其人工智能服务用户提供版权保护盾的原因。

最后，本案可以看出人工智能目前处于野蛮生长的状态，创业者只顾产品快速推出，但产品设计中忽视法律风险和更重要的产业生态保护。开源软件作为一个有几十年历史的庞大的产业，标注版权管理信息和遵守开源许可证的规定是产业能够正常运转的核心，而新兴的人工智能产业却只是把开源社区的成果——开源代码全部拿走，但完全不愿遵守法律和开源社区的规则。所以，我的判断是，这种破坏生态式的创新应该不会得到法院的支持。

来源与注释

[i] https://baijiahao.baidu.com/s?id=1781864329601644857&wfr=spider&for=pc

[ii] https://www.skadden.com/-/media/files/publications/2023/05/ruling-on-motion-to-dismiss-sheds-light/govuscourtscand403220950.pdf?rev=4e26e0aee78a4ff49aa30cabfcb265f6&hash=8D62FF3579B6D474BCA1E9E495233E76

[iii] https://www.jdsupra.com/legalnews/ruling-on-motion-to-dismiss-sheds-light-6984451/

[iv] https://www.law.cornell.edu/uscode/text/17/1202

[v] 这十一种开源许可证为：(1)Apache License 2.0;(2) GNU General Public License version；(3) MIT； (4) BSD 2;(5) BSD 3；(6) Boost Software License ("BSL-1.0") (7) Eclipse Public License 2.0; (8) GNU Affero General Public License version 3 ("AGPL-3.0") ;（9）General Public License version 2 ("GPL 2") ;(10) GNU Lesser General Public License version 2.1 ("LGPL-2.1") ；(11) Mozilla Public License 2.0("GPL-3.0")。

本文作者：游云庭（上海大邦律师事务所高级合伙人、知识产权律师）。电话：8621-52134900，Email: yytbest@gmail.com，本文仅代表作者观点。