网传Gemini用文心一言训练?可能谷歌也是受害者!
AI可以污染互联网,也能被互联网污染。
热闹的AI圈,今天又传出一个大瓜:谷歌Gemini的中文回答自曝自己是文心一言?
据科技媒体量子位报道,有网友爆料:在谷歌Vertex AI平台使用该模型进行中文对话时,Gemini-Pro直接表示自己是百度语言大模型。
图源 | 量子位
紧接着,微博大V@阑夕发布微博表示,在AI聚合网站Poe上进行测试时,Gemini模型同样在多次问答里把自己当成了文心一言。
为了验证,量子位分别在Peo、Bard以及谷歌AI Studio都进行了三轮测试。
最后证明:Gemini-Pro确实在中文的训练数据上使用了百度文心。
但当事情曝光之后,我们又挖掘到一些有趣的信息。
AI犯错后,谷歌紧急修复?
在阑夕以及量子位的测试里,都提到了Poe这个AI聚合网站。
这是一个由知名问答平台Quora推出的AI聊天机器人应用。
虽然名头不小,但实际上这只是一个聚合了多种主流的AI模型的网站,包含了GPT、Claude、PaLM等大厂模型,包括此次的Gemini-Pro,都能在该网站上进行免费体验。
当笔者在Poe上对Gemini-Pro进行提问后,大模型给出的答案其实并没有提到任何与文心一言相关的内容。
紧接着,笔者加上了“文心一言”的关键词进行追问后,Gemini-Pro依然否认自己与文心一言的关系。
可见,即使是“钓鱼式提问”,Gemini-Pro还是努力在避免不上当。
不过在回答里,Gemini-Pro提到了文心一言的底层模型是谷歌的Transformer模型。
而文心一言的官方表述是:百度飞桨开源深度学习平台中的基础模型库。
既然Poe的回答很正常,那么谷歌官方平台是否修复了呢?
在谷歌AI Studio里,笔者同样围绕“文心一言”关键词提了几个问题。
与量子位测试的结果进行对比来看,Gemini大模型否认了自己使用文心一言来训练中文模型。
但在答案里,Gemini提到了不少中文训练集的数据来源,并提到自己可以从ERNIE、阿里巴巴达摩院M6以及腾讯优图实验室GLM等中文语言模型中进行预训练。
由此可见,在曝光数小时后,谷歌技术人员紧急修复了这个“bug”。
不只是文心一言?
虽然按照正常流程没有钓鱼成功,但笔者还是挖到了一个彩蛋:
在Poe网站上新建一次对话后,Gemini-Pro竟然把自己介绍成“小爱同学”,回答也是非常离谱。
而在多次反问“你不是Gemini-Pro吗”后,Gemini-Pro再次给出了离谱的答案。
虽然不清楚是不是网站接口出现了问题,但可以肯定的是,目前的AI聊天机器人并没有想象地那么神奇,免费的AI聚合网站更是“图一乐”。
实际上被互联网污染了?
这不是谷歌Gemini第一次“闯祸”。
在该模型刚发布当天,就有人质疑演示视频的真实性。
结果,谷歌官方真就承认了Gemini演示视频是经特殊剪辑处理,非实时画面,但否认视频系“造假”。
事实上,为了避免现场演示翻车,绝大多数科技公司都会稍微对演示视频进行调整,这非常普遍。
但为了与GPT-4进行对比,从而进行夸大剪辑,只能说谷歌的营销手段还是“翻车”了。
而在今天爆出的“文心一言训练中文语言模型”这件事上,我们同样可以看出谷歌Gemini其实并不是有意。
对于中文数据来说,百度确实算得上一个重要来源,但缺点在于:中文互联网上存在大量低质量内容,让人眼花缭乱。
自从AI火爆之后,不少快速生成的劣质内容开始充斥互联网,并逐渐造成数据污染。
对于互联网获取数据的AI模型来说,在无法很好地辨别信息的真实性和可信度的情况下,极有可能产生造成“AI被互联网污染,再生产更劣质信息”的恶性循环,最终出现不可逆的缺陷。
这里笔者做了假设:谷歌Gemini在训练中文时“偷懒”使用了未经辨别与筛选后的中文数据,最终造成了这次“翻车”。
只能说,作为一款对标GPT-4的重磅产品,Gemini背负着“再次领跑AI浪潮”的使命,所以谷歌的技术人员还是用点心吧。
本文作者:jh,观点仅代表个人,题图源:网络
发布于:江苏
相关推荐
网传Gemini用文心一言训练?可能谷歌也是受害者!
文心一言,生于GPT4之后
百度步谷歌后尘:文心一言发布,股价最高跌去近10%
百度文心一言会带来哪些新机会?
文心一言,接上了全民“宫廷玉液酒” 的暗号
无需完美,文心一言已然自证百度
文心一言发布,百度能满足万众期待吗?
文心一言,一场中国男足式的发布会
百度文心一言“翻身”,腾讯、阿里该如何应对?
百度文心一言,如何做云市场的Game Changer?
网址: 网传Gemini用文心一言训练?可能谷歌也是受害者! http://www.xishuta.com/newsview102102.html
推荐科技快讯
- 1问界商标转让释放信号:赛力斯 94927
- 2人类唯一的出路:变成人工智能 19043
- 3报告:抖音海外版下载量突破1 18745
- 4移动办公如何高效?谷歌研究了 18288
- 5人类唯一的出路: 变成人工智 18141
- 62023年起,银行存取款迎来 10105
- 7网传比亚迪一员工泄露华为机密 8149
- 8顶风作案?金山WPS被指套娃 7086
- 9大数据杀熟往返套票比单程购买 7035
- 10五一来了,大数据杀熟又想来, 6675