首页 科技快讯 10万块芯片,马斯克用最大超算挑战GPT

10万块芯片,马斯克用最大超算挑战GPT

来源:晰数塔互联网快讯 时间:2024年07月24日 15:07

本文来自微信公众号:果壳 (ID:Guokr42),作者:翻翻,编辑:odette

这个超算中心位于美国田纳西州,孟菲斯,使用了100,000个(不用数了!是10万个!)英伟达H100液冷GPU,通过单一RDMA网络连接。

RDMA(Remote Direct Memory Access)即远程直接内存访问,它可以把数据直接从一台计算机传输到另一台计算机,无需双方操作系统的介入。单一RDMA打造了高吞吐、低延迟的网络通信,尤其适合在大规模并行计算机集群中使用。

单从规模来看,xAI孟菲斯超算中心已经在算力上跻身世界第一,不仅远远超过了OpenAI用来训练GPT-4的2.5万块A100 GPU,也超越了Aurora(60,000个Intel GPU)和Microsoft Eagle(14,400个Nvidia H100 GPU),甚至超过了此前的世界第一超算Frontier(37,888个AMD GPU)。

H100是英伟达专为处理大型语言模型数据而开发的芯片,每块芯片价格大概在3万美元左右,也就是说xAI这次建的超算中心仅是芯片的价值就高达30亿美元

此前,马斯克的xAI一直不温不火,xAI推出的人工智能Grok也经常被大家吐槽不好用,但以目前的状况来看,大模型训练就是一场算力游戏,再往下深究是能源游戏,而马斯克不愿意再等了,直接把料堆满。

他表示,改进后的大模型(不出意外的话是Grok3)会在今年年底完成,届时它将会是世界上最强大的AI。

其实,英伟达已经推出了新一代的H200芯片和基于Blackwell新架构的B100和B200 GPU,但是更先进的芯片要在今年年底才能出货,而且也不能一下变出几万张来,也许是为了抢在ChatGPT5之前成为世界最强,马斯克这次比平时更加大干快上。

据福布斯称,今年3月马斯克才在孟菲斯敲定这项协议,之后这座超算基地几乎立即开工。为了加快速度,马斯克从甲骨文借了2.4万块H100。

然而如前文所说,目前的大模型训练归根结底是能源游戏,而美国的电网系统相当陈旧,已经有几十年没有见证过大规模增长,尤其是AI训练的用电结构和民用商用电很不一样,经常会突然出现超高的用电波峰,极大地挑战电网的最大负荷。在这种情况下能挤出电力水力资源支持超算中心的地方所剩无几。

据孟菲斯电力、天然气和水务公司的首席执行官估计,xAI孟菲斯超算集群每小时使用的电力最高会达到150兆瓦,相当于10万户家庭的用电量

目前孟菲斯工厂有3.2万块GPU在线,预计今年第四季度供电建设将会完成,工厂将会全速运行。

也难怪会有人质疑马斯克在撒谎,因为这个电力要求和这个建设速度实在是太不可思议了。

除了用电之外,xAI超算集群预计每天至少需要100万加仑(约379万升)的水来散热

据福布斯报道,孟菲斯市议会议员Pearl Walker上周表示:“民众很害怕。他们担心水资源可能出现问题,也担心能源供应出现问题。”她说,目前数据中心预计每天需要从孟菲斯的地下蓄水层,也就是该市的主要水源中抽取492万升(该市每天总共消耗大约5.68亿升水)。虽然他们说这只是暂时的,但新的灰水工厂的建造计划还没定,孟菲斯的公用事业部门也证实,在处理厂建成运行之前,马斯克的超级计算机将被允许使用地下蓄水层的水。

除了马斯克,OpenAI和微软也在部署更大规模的超算,这台名叫“星际之门”的超算芯片数量会达到百万级,成本预计高达1150亿美元,计划在2028年推出。

今年四月,OpenAI把微软电网搞崩溃了,据微软工程师说,他们当时正在为GPT-6部署10万个H100训练集群,不知道马斯克会不会成为第一个让10万个H100一起工作的人呢?

相关推荐

10万块芯片,马斯克用最大超算挑战GPT
有钱也租不到芯片的马斯克,决定自建“超算工厂”
世界第一超算跑深度学习模型,2.76 万块 V100 GPU 将分布式训练扩展到极致
10 年融资超 1000 亿,为何 OpenAI 能成为 5700 亿“巨兽”?
超算芯片霸主之争,终于有了新变数
全球最大超算中心开始运转,马斯克的AI野心显露
算力巨兽能耗惊人:英伟达H100 AI芯片总耗电量将超欧洲小国
GPT热潮之下,中国芯片市场的焦虑和破局
微软携OpenAI欲斥资千亿美元建造AI超算! AI芯片需求的“狂飙之路”拉开帷幕
GPT-3走红背后,AI 正变成普通人玩不起的游戏

网址: 10万块芯片,马斯克用最大超算挑战GPT http://www.xishuta.com/newsview122738.html

所属分类:行业热点

推荐科技快讯