首页 科技快讯 ChatGPT 们能讲人话后,AI 污染互联网将变本加厉

ChatGPT 们能讲人话后,AI 污染互联网将变本加厉

来源:晰数塔互联网快讯 时间:2024年09月23日 17:11

本文来自微信公众号:APPSO (ID:appsolution),作者:发现明日产品的

人类最担心的事情还是发生了。

随意在网上翻看几篇新闻,却分不清是否出自AI之手;忙里偷闲时打把游戏,也看不懂沉默的队友是人机还是真人。

直播间里,明星数字人充耳不闻地吮鸡爪,与卖力吆喝的真人助播形成割裂的场景……

而据外媒404 media报道,一个用于追踪和分析多种语言中词汇趋势的项目——Wordfreq,现在也成了当下这种现象的最新受害者。

阳光明媚的地方总有阴影潜伏,显然Wordfreq不是第一个受害者,也不会是最后一个受害者。

最终为之买单的或许还是人类本身。

GPT们污染语言,人类要为之买单

生成式AI污染了数据,我认为没有人掌握关于2021年后人类使用语言的可靠信息。

这句来自Wordfreq项目创建者罗宾·斯皮尔心中的呐喊,透出了几分无奈与愤懑。

究其原因,还得从Wordfreq的来历谈起。

通过分析维基百科、电影和电视字幕、新闻报道、以及Reddit等网站内容,Wordfreq试图追踪40多种语言的变迁,进而研究随着俚语和流行文化变化而不断变化的语言习惯。

对于语言学家、作家和翻译人员而言,Wordfreq无疑是一项宝库。现在,GitHub地址上偌大的一句声明「该项目将不再更新」,也悲情地给这个项目敲响了丧钟。

曾经,网络抓取公开数据是该项目数据源的生命线,但随着AI文本开始大行其道,Wordfreq赖以更新的根基便遭到了动摇。

斯皮尔表示,过去人们很少使用「delve」这个词,而随着ChatGPT将这个词汇变成了口头禅,大有李鬼冒充李逵之势,间而也就让失真的词频统计影响了对人类语言习惯的准确分析。

如果这还不够直观,GPT们那些陈词滥调,比如「总之」、「综上所述」等词汇的泛滥便是最醒目的警告。

这股趋势也正逐渐渗透到学术写作乃至文学创作中。

一份来自斯坦福大学的报告曾指出,ChatGPT在短短五个月内,就成了许多专家学者们的「写作神器」。其中在计算机科学领域,几乎每六篇摘要、每七篇引言中,就有一篇出自它的手笔。

随之而来的,便是生成式AI对人类写作风格的「大举入侵」。

意大利国际高等研究院的博士生耿明萌的研究成果就像一面镜子,进一步映照出ChatGPT的词语偏好,也充分证实了它在学术论文写作中的影响力。

在分析arXiv上超过百万篇论文的摘要后,耿明萌发现,论文的词频在ChatGPT普及后出现了明显变化。

其中,「significant」等词汇的使用频率大幅上升,而「is」和「are」等词汇则减少了约10%。

多数情况下,生成式AI可以让一个创造力60分的人变成70分甚至更高的分数,但在文本创作中,虽然个人创造力和写作质量有所提高,却在无形中让集体创意变得无趣且同质化。

UCL和埃克塞特大学的两位学者在《Science》上发表了一项研究,500名参与者被指派借助AI围绕随机主题撰写约8行故事,并分析目标受众。

结果显示,借助AI的灵感,故事变得更有「创造性」,但这些AI生成的故事彼此之间的相似度也惊人地高。

因此,当AI生成的文本如同无孔不入的污染物,肆意涌入互联网,对于Wordfreq也好,还是人类也罢,怎么看都是利远小于弊。

反爬虫战争打响,Wordfreq遭殃

Wordfreq项目的终止算得上是巨头爬虫战争夹缝中的牺牲品。

AI的发展离不开算法、算力和数据的支持。尽管AI生成的文本与人类真实语言相比还有差距,但它在语法和逻辑性方面越来越像模像样。

这片风平浪静的水面之下,一场AI爬取与反爬取的无声战争正在酝酿。

在当前的舆论环境中,爬取网页数据似乎成了冒天下大不韪的禁忌,不少新闻评论区里都充斥着网友的唾弃之声,而Wordfreq本质上也是通过爬取不同语言的文本而构建起来的。

在生成式AI尚未盛行之时,Wordfreq也曾度过一段蜜月期。

以往一般来说,只要遵守网站的robots.txt文件规定,爬取公开数据似乎也合情合理。这是网站与爬虫之间的一种默契约定,用来指示爬虫哪些内容可以抓取,哪些则不可以。

当一个网站设置robots.txt限制协议时,就像竖起了禁止擅自进入的标志牌。如果爬虫违反了robots.txt协议,或者采用了突破网站反爬虫技术手段的方法获取数据,那么就可能会构成不正当竞争或侵犯版权等违法行为。

然而,随着模型对高质量数据的需求日益增长,这场爬取与反爬取的战况也愈发激烈。

回顾过去,关于生成式AI巨头爬虫与反爬虫数据的纠纷比比皆是。为首突出的当属OpenAI和Google。

去年,OpenAI公司特地推出网络爬虫工具GPTBot,声称用于抓取网页数据训练AI模型。但显然,没有哪家媒体愿意被爬虫暗地里薅羊毛。

意识到数据和版权重要性的媒体遵循着一手交钱,一手交数据的商业逻辑。

一项来自路透社研究所进行的研究表明,截至2023年底,全球10个国家的热门新闻网站中,近一半的网站屏蔽了OpenAI的爬虫(Crawler),而近四分之一的网站也对Google的爬虫采取了相同的措施。

后来的故事大家应该都很熟悉了,OpenAI三天两头就被传统媒体起诉,无一例外不是版权诉讼纠纷。直到今年,官司缠身的OpenAI才老老实实和新闻出版商建立合作关系。

只是,此前的高墙林立、以及数据收费等策略也让Wordfreq也成为了这场「数据荒」的牺牲品。

斯皮尔指出,由于Twitter和Reddit(Wordfreq包含的网站)已经开始对其API收费,这使得网络抓取数据变得更加困难。

「过去免费获取的信息变得昂贵,」斯皮尔写道。「我不想参与任何可能与生成式AI混淆的工作,或可能使生成式AI受益的工作。」

即便能用金钱换数据,但数据总有用尽的一天。

研究公司Epoch AI预测,互联网上可用的高质量文本数据或将在2028年耗尽,这一现象在业内被称为「数据墙」,可能成为减缓AI发展的最大障碍。

于是乎,不少大模型厂商开始将目光转向合成数据,主打一个用AI训练AI。

用AI训练AI,可能越练越「傻」

我的直觉是,网络上的文本都是狗屎,这些数据上进行训练简直是在浪费算力。

当Llama 3.1-405B以掀桌子的实力横扫一众开源大模型之时,领导Llama系列的Meta AI研究员Thomas Scialom在接受采访时发出了如上暴论。

据他透露,Llama 3的训练过程并不依赖任何人类编写的答案,而是完全基于Llama 2生成的合成数据。

Scialom的说法或许过于粗暴,但也有一定的道理。

互联网每天都在涌现源源不断的数据,但训练AI从来就是一个宁缺毋滥的单选题,若数据中满是错误和噪声,模型自然也会跟着学习这些「瑕疵」,预测和分类的准确性可想而知。

而且,低质量的数据往往充斥着偏见,无法真正代表整体数据分布,从而导致模型产生有偏见的回复。教科文组织总干事阿祖莱也曾警告:

新的AI工具有着在不知不觉中改变千百万人认知的力量,因此,即便是生成内容中极为微小的性别偏见,也可能显著加剧现实世界中的不平等。

不过,合成数据也未必是解决「数据墙」难题的灵丹妙药。

最近来自牛津剑桥的研究人员发现,当模型使用AI生成的数据集,则输出的质量会逐渐下降,最终产生无意义的内容,也就是俗称的模型崩溃。

如果你拍了一张照片,扫描、打印出来并再对其拍照,然后不断重复这个过程,随着时间的推移,基本上整个过程都会被「噪声」淹没。最后,你会得到一个黑暗的方块。

当越来越多AI生成的垃圾网页开始充斥互联网,训练AI模型的原材料也将遭到污染。

例如,曾经闹得沸沸扬扬的豆包网页版通过默许分享内容被搜索引擎收录,导致AI生成的网页内容泛滥成灾。

再比如程序员问答社区Stack Overflow也深受AI的「毒害」。

在ChatGPT爆火之初,Stack Overflow便宣布「临时禁用」。「从ChatGPT获得正确答案的平均比例太低了。」官方在声明中如是吐槽。

专业用户的数量毕竟有限,不可能逐一核实所有答案,而ChatGPT的错误率又是显而易见的。当AI污染社区环境,彼时无计可施的人类也只能一禁了之。

在图像领域,AI模型趋向于重现最常见的数据,经历多次迭代后,最终可能连最初的事物都会忘得一干二净。

被看到的这一切指向了一个恶性循环:AI生成低质量乃至错误信息,与人类数据混淆在一起,这些普遍低质量的数据又被AI反复喂养,最终导致肆意泛滥的AI反噬自身。

而如果人类意识到昔日的数据足迹会成为喂养自己的养料,或许我们会更加谨慎地对待在互联网留下的每一句话。

相关推荐

ChatGPT 们能讲人话后,AI 污染互联网将变本加厉
疯狂污染互联网,人类比AI擅长多了
AI“疯狂污染中文互联网”,社交平台管不了还是不想管?
AI正污染我们的世界
男子频繁与聊天机器人对话后自杀,AI已有自主意识?
这届的AI故事,还能讲多久?
ChatGPT更像人了
在ChatGPT上,许多人开始主动追求被AI骂
ChatGPT们,流量见顶了?
围绕ChatGPT开发的第一批“神器”,已经出现了

网址: ChatGPT 们能讲人话后,AI 污染互联网将变本加厉 http://www.xishuta.com/newsview125637.html

所属分类:行业热点

推荐科技快讯