马斯克向左 梁文锋向右
2月18日,创立xAI的埃隆·马斯克发布了号称“地球上最聪明AI”的Grok3大模型,展示了其在多项测评中超越o3-mini,摘得桂冠的技术实力。而同一天,DeepSeek的梁文锋和Kimi的杨植麟分别在专业网站上发布了自己参与的论文,这两篇论文均与如何减少长文本计算量,加快训练效率有关。
这反映了中美AI大模型路线上最本质的差异:Grok3采用20万张英伟达H100芯片训练而成,达成优异性能的同时也折射出了“力大砖飞”“火力覆盖”的美式发展路径,并且再次证明“Scaling Law”(尺度定律,可简单理解为模型参数越大效果越好)可行;而DeepSeek爆火之后,梁文锋仍聚焦“如何降低训练成本”,依旧在追求极致效率,要把AI价格“打下来”,做大模型界的“鲶鱼”。
另外,虽然马斯克宣称未来Grok3将开源,但目前该大模型依然是闭源的,而DeepSeek则持续开源,将自己的技术研究免费赋能给世界各地。2月21日,DeepSeek官方发文称,“将在接下来的一周开源5个代码库,以完全透明的方式分享我们微小但真诚的进展。”
当昂贵先进的闭源模型,遇上性价比较高的开源模型,究竟哪一条路最终会“更胜一筹”?
马斯克靠“力大砖飞”登顶大模型测评榜 英伟达股价“收复失地”
贝壳财经记者注意到,在Grok3的直播发布会上,马斯克旗下xAI的工作人员所展示的第一张实景图片,就是该公司新建的数据中心。
“强大的智能来自大型算力集群”。马斯克及其员工在直播中表示,xAI此前使用大概6500块英伟达H100芯片训练模型,但遭遇了冷却和电源问题,为了尽快发布Grok3,公司在去年四月耗时122天新建了一个数据中心,最终让第一批10万个英伟达H100芯片启动并运行,之后又花了92天加倍了数据中心GPU的容量。换句话说,为了训练Grok3,xAI至少动用了20万块最先进的英伟达H100芯片。

“马斯克在直播中没有提到这20万块GPU是否为‘单集群’,如果答案肯定的话那是非常大的突破,因为当前国内大部分(数据中心)还是1万块卡的集群。”快思慢想研究院院长,原商汤智能产业研究院创始院长田丰告诉新京报贝壳财经记者。
在性能上,Grok3在大模型界权威盲测榜单“Chatbot Arena(大模型竞技场)”中得分超1400,刷新了该榜单的新纪录。
结合训练耗费的巨额算力,在这一成绩背后,Grok3可能还拥有庞大的参数规模,以及训练数据量,因为“Scaling Law”就是指模型性能与其规模(如参数数量)、训练数据集大小以及用于训练的计算资源之间存在的一种可预测的关系,简单解释就是“越大性能越好”。
田丰认为,马斯克使用了“大力出奇迹”的方式,“我很好奇它背后的数据规模有多大,因为算力、数据和模型参数量是成比例增加的,这么大的算力一定是跟模型的大参数量和庞大的训练数据集有关系,但这两个细节马斯克并没有提及,这肯定既包括互联网上的数据,也包括特斯拉工厂里的一些物理数据。”
贝壳财经记者注意到,对于训练数据集,xAI的工作人员举了一个形象的比喻“压缩整个互联网”,马斯克则透露Grok3的计算量是Grok2的10到15倍。
事实上,科学界有一种观点认为,随着互联网上可用于训练的数据接近枯竭,“Scaling Law”将面临瓶颈,而Grok3、o3-mini等在DeepSeek-R1之后发布的大模型则证明“Scaling Law”依然有效。这也提振了市场对算力供应商的信心。截至北京时间2月21日,英伟达的股价为每股140.11美元,自1月24日至今呈现出了一个“深V”走势,DeepSeek-R1发布后所损失的市值现已基本“收复”。

中国科学院软件所博士、新浪微博技术研发负责人张俊林表示,所谓“Scaling Law撞墙”的普遍问题是数据不够,导致预训练阶段的Scaling Law走势趋缓,但这是趋缓不是停顿。即便没有新数据,推大模型尺寸规模,效果仍然会上升。
张俊林预测,“Grok 3的尺寸规模很可能不是一般的大(感觉在200B到500B之间),很明显,Grok 3仍然在采取推大基座模型尺寸的‘传统’做法,这种做法性价比很低。”
另一个细节是,虽然马斯克强调“当发布下一代模型后,上一代模型就将开源”,但和OpenAI发布的GPT系列以及o系列模型一样,Grok3也是一个闭源大模型。对此,田丰告诉记者,由于xAI起步较晚,马斯克必须不计代价去投入资源以达到最顶尖的模型水平,这也导致他后续将会采用收费的模式。
梁文锋、杨植麟聚焦AI降本增效让大模型人人可用
当马斯克的Grok3背靠新建数据中心以及20万块H100的支持,在各路评分榜单攻城略地之时,梁文锋依旧一如既往坚持着DeepSeek“降本增效”的技术创新之路。
北京时间2月18日下午3时4分,就在马斯克刚刚完成Grok3发布的一小时后,DeepSeek官方在社交平台介绍了一种名为NSA(Native Sparse Attention原生稀疏注意力)的新机制,并贴出了详细介绍和论文链接。DeepSeek官方称,该机制加快了推理速度,降低了预训练的成本,且不影响模型性能。
新京报贝壳财经记者阅读了这篇直译为《原生稀疏注意力:硬件对齐与可训练的稀疏注意力》的论文,发现NSA机制的核心思想是通过将输入的序列以“压缩”“选择”“滑动”的方式分成三个并行的“分支”块,减少计算量,这种块状处理方式与GPU的并行计算能力相匹配,充分利用了硬件的计算资源。
以通俗易懂的语言解释就是,假设大模型正在做阅读理解,需要回答一个关于文章主题的问题,传统的“全注意力”机制就类似于阅读完全部文章再回答问题。而采用NSA机制,大模型会首先快速浏览文章,抓住文章的大致主题和结构(即“压缩”注意力),再仔细阅读与问题最相关的段落或句子(即“选择”注意力),同时为了防止跑题,关注局部上下文,确保理解问题的背景(即“滑动”注意力)。在这一机制下,大模型可以成为得到指点的“优秀考生”。

根据DeepSeek在论文中展示的图表,NSA在基准测试中的得分(左图中红色)优于传统的全注意力模型(左图中橙色),而NSA的计算速度(右图中红色)则明显快过全注意力模型(右图中黄色),在解码、向前传播、向后传播三项维度上的速度分别达到了全注意力模型的11.6倍、9倍和6倍,这意味着模型的训练速度和推理速度都将得到成倍提高。
对此,原谷歌顶级工程师,现已加入OpenAI的Lucas Beyer在社交平台评论道,论文中出现的图表非常漂亮,仅发现绘图方面可能存在一些小瑕疵,“可以看出这篇论文在发表之前经过精细的打磨,恭喜DeepSeek现在有一个新粉丝了。”
无独有偶,2月18日下午8点20分,“AI六小虎”之一的Kimi也发表了类似的论文,该论文主要介绍了一个名为MoBA(MIXTURE OF BLOCK ATTENTION直译为块状混合注意力)的机制,该机制的核心思想同样是将长文本分割为多个固定大小的“块”,此后再通过动态选择每个块的相关性,最终达到提高计算效率的作用,处理1M长文本的速度可以提升6.5倍。
值得注意的是,DeepSeek和Kimi的这两篇论文中,分别出现了双方创始人梁文锋和杨植麟的名字,其中DeepSeek的论文还是梁文锋本人投递的。
而且贝壳财经记者注意到,不论是NAS机制还是MoBA机制,都强调了可以无缝集成到现有的语言模型中,无需重新训练已有大模型。这意味着这两项科技成果都可以直接拿来给现有的大模型“加速”。
对于DeepSeek此次论文的发布,有外国网友表示,“这就是我喜欢DeepSeek胜过行业大多数前沿模型的原因,他们正在创新解决方案,他们的目标不仅仅是创造一个通用人工智能,而是让它高效化、本地化,让每个人都能运行和维护,无论计算资源如何。Grok3看起来很棒,但它并不开源,并且是在20万块H100上训练出来的。”
田丰告诉记者,追求极致的模型算力和性价比是中国必须完成的任务,这是由复杂的“卡脖子”问题造成的,但这对美国的AI公司不是问题,所以马斯克才会不计代价扩张算力,模型只要足够好,领先OpenAI、DeepSeek和谷歌就可以了,不在乎成本是否全球最优,“从马斯克的发布会上可以感觉出来,可能在未来很长一段时间美国的大模型企业并不会去追求极致的性价比,更多还是会追求领先的性能。”
2月21日,DeepSeek在最新的公告中延续了自己开源免费的风格。在公告中,DeepSeek表示“我们是一个探索AGI(通用人工智能)的小团队,下周起我们将开源5个代码库,以完全透明的方式分享我们微小但真诚的进展。”
DeepSeek表示,“作为开源社区的一部分,我们相信,每分享一行代码,都会成为加速AI行业发展的集体动力。每日解锁的开源项目即将到来,没有高不可攀的象牙塔,只有纯粹的车库文化(记者注:不少美国著名企业从车库里诞生)和社区驱动的创新。”
贝壳财经记者注意到,DeepSeek“开源免费”的模式也对美国的大模型发展造成了影响。2月20日,xAI发文称,将免费提供Grok3的服务,“直到服务器崩溃为止”。
对此,记者登录Grok3网页版,并提出了一个问题“说说你和DeepSeek的对比”,Grok3回答,“我的训练成本相对较高,这反映了我在性能和技术上的巨大投入。据估计,我的训练使用了约20万块GPU,总训练时间超过200天,电力成本约为2500万美元。如果加上GPU采购、维护等费用,实际成本会更高。相比之下,DeepSeek的训练成本低得多。例如,DeepSeek-V3的训练成本为600万美元,使用了278.8万GPU小时。这一成本优势得益于其高效的混合专家(MoE)架构和优化的训练策略,显著降低了计算需求。”Grok3还在功能与性能、开放性等方面做出了与DeepSeek的比较。

Grok3在回答的结语中告诉贝壳财经记者,“感谢你对中国AI发展的关注!作为Grok,我为自己的性能和技术感到自豪,同时也尊重DeepSeek在成本效率和开放性上的优势。AI的进步是全球共同努力的结果,中美都在其中发挥了重要作用。”
记者联系邮箱:luoyidan@xjbnews.com
新京报贝壳财经记者 罗亦丹
编辑 岳彩周
校对 穆祥桐
发布于:北京
相关推荐
马斯克向左 梁文锋向右
DeepSeek梁文锋的“第一桶金”
顶峰相见!奥特曼计划与DeepSeek梁文锋会面,会聊些啥?
马化腾把卧榻之侧留给梁文锋
To B互联网:中国向左,印度向右
从幻方到DeepSeek:梁文锋的“布施”与“布道”
丁磊向左,刘强东向右
短视频十字路口:头条向左,腾讯向右
小米半年报发布后 “业绩向左、股价向右”到底啥原因
太震撼了!梁文锋携DeepSeek团队丢出注意力新机制重磅论文,网友:这才是真正的OpenAI
网址: 马斯克向左 梁文锋向右 http://www.xishuta.com/newsview132950.html
推荐科技快讯

- 1问界商标转让释放信号:赛力斯 95175
- 2人类唯一的出路:变成人工智能 20854
- 3报告:抖音海外版下载量突破1 20736
- 4移动办公如何高效?谷歌研究了 20025
- 5人类唯一的出路: 变成人工智 19999
- 62023年起,银行存取款迎来 10307
- 7网传比亚迪一员工泄露华为机密 8449
- 8五一来了,大数据杀熟又想来, 8311
- 9滴滴出行被投诉价格操纵,网约 7930
- 10顶风作案?金山WPS被指套娃 7210