首页科技快讯可支持千亿大模型训练，摩尔线程推出全国产GPU千卡智算中心｜最前线

可支持千亿大模型训练，摩尔线程推出全国产GPU千卡智算中心｜最前线

来源：晰数塔互联网快讯时间：2023年12月20日 08:34

作者｜杨逍

编辑｜邓咏仪

12月19日，国产GPU公司摩尔线程召开发布会，带来包括大模型加速卡、智算中心、集群管理平台、模型服务在内的全系列产品。

在硬件上，摩尔线程宣布推出大模型智算加速卡MTT S4000、服务器MCCX D8000和算力基础设施KUAE计算集群。

智算加速卡MTT S4000单卡支持48GB显存和768GB/s的显存带宽，针对INT8/fp16/tf32/fp32，算力分别可达到200TOPS、100TFLOPS、50TFLOPS、25TFlops。服务器MCCX D8000则由8张MTT S4000构成。

摩尔线程走全GPU技术路线，这款卡具有图形渲染能力、视频编解码能力和超高清8K HDR显示能力，可用于AI计算、图形渲染、多媒体等场景。

据摩尔线程介绍，在摩尔线程自研MUSIFY开发工具帮助下，MTT S4000能零成本适配CUDA代码。

集群并不直接等于多个服务器的累积，它还需要具有高算力、大存储、快互联等特点。为更好支持行业对GPU产品对需求，摩尔线程构建了智算中心KUAE。

据摩尔线程CEO张建中介绍，KUAE千卡模型训练平台的训练周期只需要30天，它有3个版本K1、K2、K3，分别集成了1000卡、2000卡和3000卡。在一个月时间，K1可以支持训练出70b的大语言模型；K2能支持如130B、170B千亿模型；K3则能支持训练更大的模型。

他表示，以智源研究院700亿参数Aquila2为例，在2000亿数据量情况下，KUAE能在33天完成训练；1300亿参数情况，则需要56天完成训练。

AI公司对数据中心并不了解，哪怕有了服务器，大模型在不同的服务器上也有不同的训练方法。为此，摩尔线程提供了KUAE Platform集群管理平台和KUAE ModelStudio模型服务。

集群管理平台能帮助用户管理、调度集群算力资源，并集成多维度运维监控、告警和日志系统，实现智算中心运维自动化。

对于训练大模型的公司而言，最担心的是因数据中心不稳定带来的训练时间被浪费的问题。一旦数据中心发生故障，需要重新计算。KUAE有checkpoint一步启动功能，如果在计算过程中发生错误，checkpoint可以帮助用户从故障点重新启动训练，以免降低用户时间。

KUAE ModelStudio模型服务则是提供了大模型预训练、微调和推理全流程功能，支持包括LLaMA、GLM、Aquila、Baichuan、GPT、Bloom、玉言等各类主流大模型的训练和微调。