首页科技快讯 AI数据荒下的创业众生相：盗用GPT-4生成数据训练模型，引发投资人担忧

AI数据荒下的创业众生相：盗用GPT-4生成数据训练模型，引发投资人担忧

来源：晰数塔互联网快讯时间：2024年04月17日 00:25

智东西

编译 | 长颈鹿

编辑 | 李水青

智东西4月16日消息，据外媒The Information 4月15日报道，在AI领域，许多初创公司开发的聊天机器人实际上是建立在OpenAI等大型企业所提供的数据和技术基础之上的。这些低成本的服务能够在某些程度上模仿GPT-4、Llama的性能，但这种做法可能违反了这些科技强企的使用要求。不仅如此，这种低成本的模仿还有可能对AI强企的市场份额和收入产生威胁。

AI巨头们自身也难逃版权纠纷，一些未经许可的数据使用引发了较多争议和诉讼。但好在行业整体版权意识有所转势，OpenAI和谷歌带头与出版商和网站达成了数据的授权协议。

此外，在当下如此复杂的市场竞争中，投资者们也有着自己的考量。他们即希望看到AI行业的快速进步，又不愿支持初创公司在技术研发中出现“偷工减料”的行为。因为他们担心这些违反规则的行为可能会对初创公司的长期可持续性和声誉造成负面影响。

一、AI公司创业新路子：用GPT-4生成内容训练模型

开发者利用OpenAI最先进的模型GPT-4作为资源，来帮助加速他们的研究和开发过程。他们会向模型提问，来获得有关特定问题的洞见和建议。比如：这行代码有什么问题？然后利用答案来改进他们自己的模型。

一位帮助开发者构建对话式AI的创始人估计，他的客户中约有一半从OpenAI的GPT-4或Anthropic的Claude模型中生成了一些数据，并用这些数据改进了自己的模型。

许多开发者无需从头开始训练模型。小规模模型的开发过程通常是基于免费提供的流行开源模型，如Meta或Mistral AI的开源模型。然后，他们再通过加入OpenAI模型的答案，使这些小规模模型得到显著的改进。

对于某些公司来说，违反明文规定或潜规则的风险可能是值得的。在竞争激烈的生成式AI领域，获取高质量数据用于训练或完善模型至关重要。任何一家AI初创企业都了解如果缺乏数据来源用于训练，就会落后于人。

即使是大型科技公司，也无法抵挡这样“便利的”诱惑。据《泰晤士报》报道，这方面的例子包括谷歌转录YouTube视频用于训练其AI模型以及Meta雇用非洲承包商总结受版权保护的书籍来训练AI模型。此外，彭博社报道了一则Adobe公司的消息，他们利用初创公司Midjourney提供的AI生成的照片训练自己的图像生成软件Firefly。

据The Information报道，去年，谷歌的一位高级AI工程师在对该公司使用OpenAI的ChatGPT数据来训练谷歌自己的模型表示担忧后，辞职以示抗议。

但有些开发者不愿主动承认自己对于开源模型的使用情况。一旦这种行为被公之于众时，他们的公司就会陷入尴尬的局面。例如巴黎的Mistral AI和北京的零一万物，在信息泄露事件之后，才不得不承认他们确实使用了Meta的开源模型Llama 2作为自己产品开发的基础。

随着越来越多的公司开发出源于其他模型的模型，它们可能会变得难以区分。这可能会蚕食OpenAI等领先企业的竞争优势，当顾客选择更便宜、更方便的模型，而不是最先进、最昂贵的模型时，它们在价格上将展开竞争。

二、阿尔特曼放宽ChatGPT使用限制，OpenAI此前深陷版权纠纷

OpenAI和Anthropic、谷歌等其他领先的AI公司一样，在技术上禁止这种行为。尽管如此，OpenAI首席执行官山姆·阿尔特曼（Sam Altman）在一次会议上与初创企业创始人的对话中提到，小型企业创始人可以在一定程度上使用OpenAI的技术。

虽然阿尔特曼的回答让在场的一些创始人松了一口气，但如果这种做法损害了OpenAI的发展，他们随时可能改变主意。目前还不清楚，OpenAI、谷歌、Anthropic和其他大型开发商会在多长时间内允许较小的竞争对手有效复制他们的AI。

不过，初创公司利用OpenAI数据所做的事情与OpenAI和其他领先的AI开发商在训练自己的模型时所做的事情有相似之处。OpenAI的首席技术官米拉·穆拉提（Mira Murati）上个月的一次采访中，在回答有关其同事是否使用了谷歌旗下的YouTube以及Meta Platforms旗下的Facebook和Instagram的数据来训练Sora时，表现得有些含糊其辞。

如果OpenAI确实使用了这些数据，也不足为奇。纽约时报最近的一篇报道描述了OpenAI如何创建语音识别工具Whisper来转录YouTube视频，以改进其GPT-4 模型。The Information此前曾报道，该公司秘密使用YouTube数据训练其之前的AI模型。本月早些时候，YouTube首席执行官尼尔·莫汉（Neal Mohan）表示，他不会同意OpenAI使用YouTube视频来开发像Sora这样的模型。

这引发了新闻出版商和一些作家的指责。去年12月，《纽约时报》起诉OpenAI及其最大支持者微软，指控它们在训练模型时非法复制了纽约时报的文章。诉讼称，OpenAI的聊天机器人可以产生完整纽约时报内容的输出。

OpenAI在回应中辩称，它曾试图与新闻出版商建立合作关系，其训练行为是美国版权原则“合理使用”所允许的。

尽管如此，OpenAI和谷歌都与包括Axel Springer在内的出版商达成了价值数百万美元的授权协议，并与Reddit等大型网站达成了更大的协议。

但并非每个AI开发商都游走在“灰色地域”。Databricks公司的首席科学家乔纳森·弗兰克尔（Jonathan Frankle）表示，该公司在开发强大的开源大型语言模型时，并没有依赖竞争对手的作品。Anthropic的一位发言人也称，该公司没有利用其他模型的输出结果来训练自身大模型。

三、投资者不愿初创公司“走捷径”，合成数据或成训练新来源

一些投资者对“偷工减料”或开发出与竞争对手无异的技术的公司感到不舒服，因为这些公司实际上并没有自己真正的技术。投资者们更希望看到AI领域的快速进步和比同行更好的科研成果。

一些筹集了数亿美元资金的公司甚至不承认使用了其他AI公司的开源模型。这种情况更加剧李投资者的不满，认为公司的诚信有问题。门罗风险投资公司（Menlo Ventures）的董事总经理马特·墨菲（Matt Murphy）解释道，在一个新的生态系统中，没有一套明确的规则，就会出现这种情况。

合成数据是一种替代方案，公司可以用自己的AI模型生成数据，而不是获取线上的内容。例如，谷歌和Meta就表示，它们使用合成数据来建立模型，以解决几何问题和生成计算机代码。由于AI能够生成这类数据，因此它避免了使用人工生成的内容所带来的许多法律问题。

与此同时，数十家AI初创公司正在获取医疗保健和律师事务所等行业的私人数据，以开发特定用途的模型。

结语：生成式AI模仿风波不断，OpenAI持宽容态度

许多初创公司开发的AI大模型很可能使用了OpenAI和其他公司的数据，尽管这些初创公司正试图削弱OpenAI的实力。这种做法已成为了行业内的公开秘密，导致了技术同源但价格减半的竞争态势。

虽然OpenAI等初创公司对于小规模使用情况保持宽容的态度，但一些公司仍不主动披露他们在开发过程中使用了他者的技术。他们认为承认可能会给公司带来风险。