英伟达最新Blackwell机板配备四GPU、双Grace CPU且功耗为5.4千瓦
英伟达推出的最新高性能计算与AI芯片采取大型单板计算机形式,配备四块Blackwell GPU、144个Arm Neoverse核心、高达1.3 TB的HBM内存容量以及高达5.4千瓦的热设计功耗(TDP)。
从诸多方面来看,本周在亚特兰大超级计算大会上全面推荐的全新GB200 NVL4,在外形上酷似由英伟达即将推出的两块Grace-Blackwell超级芯片拼接而成。
然而,与我们之前看到的2.7千瓦版GB200机板不同,英伟达NVL4所配置的高速NVLink通信仅限于板上的四块Blackwell GPU以及两块Grace CPU。所有板内或板外I/O则将由传统以太网或者InfiniBand NIC负责处理。
GB200 NVL4本质上就是两块连接起来的GB200超级芯片,再减去板外部分的NVLink。
虽然这种设计思路看似奇怪,但实际上与之前的高性能计算系统却是一脉相承。例如,Frontier超算系统中的Cray EX Blades就采用了一块第三代Epyc CPU加四块MI250X加速器的组合形式。
这也意味着HPE、Eviden和联想等主要高性能计算系统制造商不必拘囿于通过英伟达的专有互连来进行纵向与横向扩展。HPE和Eviden都拥有自己的互连传输技术。
事实上,HPE还预告将于2025年底推出新的EX系统,且确定将采用英伟达的GB200 NVL4机板。上周发布的EX154n能够在其巨大的液冷高性能计算机柜当中塞入多达56块超宽规格的超级芯片(每个刀片服务器一块)。
在这样的满配条件下,单个EX机柜即可提供超过10千万亿次的FP64矢量或矩阵算力。虽然听起来数字相当夸张,但如果只从高精度科学计算的角度来看,基于AMD的HPE系统其实能提供更加可观的浮点运算性能。
Cray的EX255a刀片服务器中的MI300A APU可提供61.3万亿次矢量FP64或122.6万亿次矩阵FP64算力,而每张Blackwell GPU的双精度矢量/矩阵性能则仅为45万亿次。
对于以AI为中心的工作负载类型,双方的性能差距则要小得多,因为每张MI300A加速器能够输出3.9造成亿次的稀疏FP8算力性能。所以对于一台满配条件下的EX机柜,用户可以获得约2百亿亿次的FP8性能,而Blackwell系统只需安装近半数GPU即可实现约2.2百亿亿次FP8算力。如果大家的实际用例适合MI300A无法支持的FP4数据类型,则性能还可进一步倍增。
尽管HPE Cray是首批宣布支持英伟达NVL4设计方案的厂商之一,但预计Eviden联想以及更多其他企业也将很快推出基于该设计的计算刀片与服务器。
H200 PCIe卡迎来NVL升级
除了英伟达的双倍宽度GB200 NVL4之外,GPU巨头此番还宣布其基于PCIe的H200 NVL配置已经全面上市。
不过大家先别急着兴奋,与2023年初公布的H100 NVL类似,这次亮相的H200 NVL在本质上也只是一款双倍宽度PCIe卡(最多四倍宽度),并采用NVLink桥连接在一起。
与英伟达基于SXM的大尺寸DGX与HGX平台一样,这款NVLink桥接器允许GPU将计算和内存资源集中起来以处理规模更大的任务,确保不会在速度较慢的PCIe 5.0 x 16接口上出现性能瓶颈。该接口的双工带宽上限仅为128 GBps,而NVLink的带宽上限则有900 GBps。
在最大容量下,H200 NVL能够支持高达564 GB的HBM3e内存和13.3万亿次的峰值稀疏FP8运算性能。同样的,这是因为H200 NVL仅仅是将四张H200 PCIe卡用一条速度极快的互连桥连接在一起。
需要注意的是,所有这些性能指标都是以牺牲功率和散热为代价的。在这套四堆栈系统中,每张H200卡的额定功率高达600瓦,总功率达到2.4千瓦。
话虽如此,这样的设计也的确有其优势。至少,这些加速卡几乎可以被部署在任何具备充足空间、电源并可提供必要散热气流的19英寸机架服务器当中,因此大大降低了系统部署对于机房环境的要求。
发布于:天津
相关推荐
市场需求旺盛,传英伟达Blackwell GPU投片量上调25%
英伟达下一代GPU,真实性能发布
英伟达的GPU已经讲不出“花儿”了
英伟达72核Grace CPU多核跑分7.44 万:接近AMD 96核线程撕裂者7995WX
英伟达经济学:云服务商在GPU上每花1美元,就能赚7美元!
为应对Blackwell产品爆炸性需求,英伟达将增加订单及新的供应商
对标英伟达Blackwell,华为达芬奇的压力好大!
英伟达带来最强AI芯片,但赶超苹果又远了一步?
功耗要超 1000W!英伟达新一代架构 Blackwell 来了:RTX 50、B200 都要用
“烧光”70000亿美元,与英伟达、台积电为敌
网址: 英伟达最新Blackwell机板配备四GPU、双Grace CPU且功耗为5.4千瓦 http://www.xishuta.com/newsview129037.html
推荐科技快讯
- 1问界商标转让释放信号:赛力斯 94831
- 2人类唯一的出路:变成人工智能 18279
- 3报告:抖音海外版下载量突破1 17828
- 4移动办公如何高效?谷歌研究了 17547
- 5人类唯一的出路: 变成人工智 17382
- 62023年起,银行存取款迎来 10009
- 7网传比亚迪一员工泄露华为机密 8000
- 8顶风作案?金山WPS被指套娃 6446
- 9大数据杀熟往返套票比单程购买 6423
- 1012306客服回应崩了 12 6370