首页 科技快讯 AMD将构建全球最大AI训练集群,集成120万片GPU

AMD将构建全球最大AI训练集群,集成120万片GPU

来源:晰数塔互联网快讯 时间:2024年06月27日 13:30

6月26日消息,据The Next Platform报道,近日AMD执行副总裁兼数据中心解决方案集团总经理Forrest Norrod在接受采访时表示,AMD将助力构建全球最大的单体人工智能(AI)训练集群,将集成高达120万片的GPU。

120万片GPU 是一个非常惊人的数字,要知道目前全球最强的超级计算机Frontier 所配备的 GPU 数量才只有37888片,这也意味着AMD所支持的AI训练集群的GPU规模将达到Frontier的30多倍。不过,Forrest Norrod没有透露哪个组织正在考虑构建这种规模的AI系统,但确实提到“非常清醒的人”正在考虑在AI训练集群上花费数百亿到数千亿美元。

目前的AI训练集群通常由几千个 GPU 构建而成,这些 GPU 通过跨多个服务器机架或更少的高速互连连接。如果要创建一个拥有高达 120 万个 GPU 的单体 AI 集群,意味着将会面临极为复杂的高速互连网络,并且还会有延迟、功耗、硬件故障等诸多的问题,这似乎是难以实现的。

比如,AI工作负载对延迟非常敏感,尤其是尾部延迟和异常值,其中某些数据传输比其他数据传输花费的时间要长得多,并且会中断工作负载。此外,当今的超级计算机也会面临每隔几个小时就会发生的 GPU 或其他硬件故障。当扩展到当今最大的超级计算机集群的 30 倍时。更为关键的是,如此庞大的AI训练集群,将会产生极为庞大的能耗,不仅稳定的供电将会是一个大难题,而且配套的散热解决方案也面临巨大挑战。

编辑:芯智讯-浪客剑

发布于:广东

相关推荐

AMD将构建全球最大AI训练集群,集成120万片GPU
谁在抢GPU?
摩尔线程千卡GPU集群!憨侯完成700亿参数大模型训练
为什么科技巨头纷纷选择英伟达AI,而GPU同样出色的AMD“无人问津”?
华为发布AI产品,集成1024颗芯片,训练ResNet-50只需59.8秒
造出世界最大芯片,AI芯片明星独角兽再获2.5亿美元融资
英伟达 VS 英特尔 VS AMD:新的AI混战
一万亿晶体管GPU将到来,台积电董事长撰文解读
AMD的翻身仗
Meta连甩AI加速大招!首推AI推理芯片,AI超算专供大模型训练

网址: AMD将构建全球最大AI训练集群,集成120万片GPU http://www.xishuta.com/newsview121324.html

所属分类:行业热点

推荐科技快讯