首页 科技快讯 测试“天下最聪明”的Grok3,就这?

测试“天下最聪明”的Grok3,就这?

来源:晰数塔互联网快讯 时间:2025年02月19日 07:44

北京时间2月18日,马斯克与xAI团队,在直播中正式发布了Grok最新版本Grok3。

早在本次发布会之前,依靠着种种相关信息的抛出,加上马斯克本人24/7不间断的预热炒作,让全球对Grok3的期待值被拉到了空前的程度。在一周前,马斯克在直播中评论DeepSeek R1时,还信心满满地表示“xAI即将推出更优秀的AI模型”。

从现场展示的数据来看,Grok3在数学、科学与编程的基准测试上已经超越了目前所有的主流模型,马斯克甚至宣称Grok 3未来将用于SpaceX火星任务计算,并预测“三年内将实现诺贝尔奖级别突破”。

但这些目前都只是马斯克的一家之言。笔者在发布后,就测试了最新的Beta版Grok3,并提出了那个经典的用来刁难大模型的问题:“9.11与9.9哪个大?”

遗憾的是,在不加任何定语以及标注的情况下,号称目前最聪明的Grok3,仍然无法正确回答这个问题。

Grok3并没准确识别出这个问题的含义|图片来源:极客公园

在这个测试发出之后,很短的时间内迅速引发了不少朋友的关注,无独有偶,在海外也有很多类似问题的测试,例如“比萨斜塔上两个球哪个先落下”这些基础物理/数学问题,Grok3也被发现仍然无法应对。因此被戏称为“天才不愿意回答简单问题”。

Grok3在实际测试中的许多常识问题上出现“翻车”|图片来源:X

除了网友自发测试的这些基础知识上Grok3出现了翻车,在xAI发布会直播中,马斯克演示使用Grok3来分析他号称经常玩的Path of Exile 2(流放之路2)对应的职业与升华效果,但实际上Grok3给出的对应答案绝大部分都是错误的。直播中的马斯克并没有看出这个明显的问题。

Grok3在直播中也出现给出数据大量错误的情况|图片来源:X

因此这个失误不仅成为了海外网友再次嘲讽马斯克打游戏“找代练”的实锤证据,同时也为Grok3在实际应用中的可靠性,再次打上了一个大大的问号。

对于这样的“天才”,无论实际能力几何,未来被用于火星探索任务这样的极度复杂的应用场景,其可靠性都要打上一个大大的问号。

目前,众多在几周前获得Grok3测试资格、以及昨天刚刚用上几个小时的模型能力测试者,对于Grok3当前的表现,都指向了一个相同的结论:

“Grok3是很好,但它并不比R1或o1-Pro更好。”

“Grok3是很好,但它并不比R1或o1-Pro更好”|图片来源:X

Grok3在发布中官方的PPT中,在大模型竞技场Chatbot Arena中实现“遥遥领先”,但这其实也应用了一些小小的作图技巧:榜单的纵轴仅列出了1400-1300分段的排名,让原本1%的测试结果差距,在这个PPT展示中都变得异常明显。

官方发布PPT中的“遥遥领先”效果|图片来源:X

而实际的模型跑分结果,Grok3其实也只比DeepSeek R1以及GPT4.0实现了不到1%~2%的差距:这对应了不少用户在实际测试中“并无明显差别”的体感效果。

实际上的Grok3,只比后来者高了1%-2%|图片来源:X

此外虽然在分数上,Grok3超过了目前公开测试的所有模型,但这一点并不被很多人买账:毕竟xAI在Grok2时代就有在这个榜单中“刷分”,随着榜单对回答长度风格做降权处理而大幅降低分数的情况,因此经常被业内人士诟病“高分低能”。

无论是榜单“刷分”,还是配图设计上的“小技巧”,都展示出的是xAI以及马斯克本人对于模型能力“遥遥领先”这件事的执念。

而为了这些差距,马斯克所付出的代价堪称高昂:在发布会中,马斯克用近乎炫耀的口吻表示,用了20万张H100(马斯克直播中表示使用“超过10万”张)训练Grok3,总训练小时数达到两亿小时。这让一部分人觉得这是对GPU行业的又一个重大利好,并认为DeepSeek给行业带来的震动是“愚蠢”的。

不少人认为堆砌算力将会是模型训练的未来|图片来源:X

但实际上,有网友对比了使用2000张H800训练两个月得出的DeepSeek V3,计算出Grok3其实际的训练算力消耗是V3的263倍。而DeeSeek V3在大模型竞技场榜单上与得分1402分的Grok3的差距,甚至还不到100分而已。

从这些数据出炉之后,就有不少人快速意识到,在Grok3登顶“世界最强”的背后,其实是模型越大,性能越强的逻辑,已经出现了明显的边际效应。

即使是“高分低能”的Grok2,其背后也有着X(Twitter)平台内海量的高质量第一方数据作为支撑来使用。而到了Grok3的训练中,xAI自然也会遇到OpenAI当前同样遇到的“天花板”——优质训练数据的不足,让模型能力的边际效应迅速曝光。

对于这些事实,最早意识到并且也是最深刻理解的人,肯定是Grok3的开发团队与马斯克,因此马斯克也在社交媒体上不断表示当前用户体验到的版本“还仅仅只是测试版”“完整版将在未来几个月推出”。马斯克本人更是化身Grok3产品经理,建议用户直接在评论区反馈使用时所遇到的各种问题。

他大概是地球上粉丝数量最多的产品经理|图片来源:X

但不到一天之内,Grok3的表现,无疑给寄希望依靠“大力飞砖”训练出能力更强的大模型的后来者敲响了警钟:根据微软公开的信息推测,OpenAI GPT4参数体积为1.8万亿参数,相比GPT3已经提升了超过10倍,而传闻中的GPT4.5的参数体积甚至还会更大。

模型参数体积飞涨的同时训练成本也在飙升|图片来源:X

有Grok3在前,GPT4.5以及更多想要继续“烧钱”,以参数体积来获得更好模型性能的选手,都不得不考虑到已经近在眼前的天花板,应该怎样突破。

此时此刻,OpenAI的前首席科学家Ilya Sutskever在去年12月曾表示“我们所熟悉的预训练将会结束”,又被人重新记起来,并试图从中找到大模型训练的真正出路。

Ilya的观点,已经为行业敲响了警钟|图片来源:X

彼时,Ilya准确预见到了可用的新数据接近枯竭,模型难以再继续通过获取数据来提升性能的情况,并这种情况形容为化石燃料的消耗,表示“正如石油是有限资源一样,互联网中由人类生成的内容也是有限的”。

在Sutskever预测中,预训练模型之后的下一代模型将会有“真正的自主性”,同时将具备“类似人脑”的推理能力。

与如今预训练模型主要依赖的内容匹配(基于模型此前学习的内容)不同,未来的AI系统将能够以类似于人脑“思维”的方式,来逐步学习并建立起解决问题的方法论。

人类对某一个学科做到基本的精通,只需要基本专业书籍即可实现,但AI大模型却需要学习数以百万计的数据才能实现最基础的入门效果,甚至当你换了个问法之后,这些基础的问题也无法正确理解,模型在真正的智能上并没有得到提升:文章开头提到的那些基础但Grok3仍然无法正确回答的问题,就是这种现象的直观体现。

但在“力大飞砖”之外,Grok3如果真的能向行业揭示“预训练模型即将走到尽头”这个事实,那它对行业仍然称得上有着重要的启发意义。

或许,在Grok3的狂潮逐渐褪去之后,我们也能看到,更多类似李飞飞“在特定数据集的基础上50美元微调出高性能模型”的案例出现。并在这些探索中,最终找到真正通向AGI的道路。

本文来自微信公众号:极客公园 (ID:geekpark),作者:张勇毅

相关推荐

“世界上最聪明的大模型”Grok 3产业链概念股(合成数据值得关注)
马斯克发布Grok 3,推理能力超o3和DeepSeek-R1
号称“地球上最聪明的AI”,马斯克发布了
马斯克再“激进”预测:明年人工智能将比最聪明的人类还要聪明
奥特曼称人类将不再是地球最聪明的
全球最聪明公司扎堆研发十多年,自动驾驶的安全性到什么水平了?
马云55岁就急流勇退 外媒:聪明的行事方式
智商超过99.9%人类,ChatGPT到底有多聪明?
游戏玩家的“聪明药”
人工智能为教育带来什么?郭毅可:培养更聪明的人,也创造更聪明的智能机器

网址: 测试“天下最聪明”的Grok3,就这? http://www.xishuta.com/newsview132816.html

所属分类:行业热点

推荐科技快讯