首页 科技快讯 以网补算 破解智算基础设施供给难题

以网补算 破解智算基础设施供给难题

来源:晰数塔互联网快讯 时间:2024年06月06日 12:35
(图片来源:摄图网)

“现在,再也不怕东西落在出租车上又联系不到司机了。”山东潍坊市民吴女士感叹。之所以让吴女士放心的背后得益于山东省“多元一体约车平台”的推出。这是我国数字基础设施建设加速落实见效的一个缩影。以前,基础设施通常指高铁、高速公路、机场、港口等,进入数字经济时代,则呼唤以数据创新为驱动、通信网络为基础、数据算力设施为核心的数字基础设施体系。

当前我国正处在一个加速演进的数智时代,5G持续演进迈入5G-A阶段,以ChatGPT、Sora为代表的AIGC技术日新月异发展突破。网络、算力和数据要素,类似工业时代的铁路、电力和石油,成为数智时代新的关键支柱。但智算基础设施建设在过程中,尚面临组网、通信、能耗、成本等多重挑战,因此要推进算网建设。作为云网一体阶段的关键策略,中国电信采用“以网补算”,打造面向智算业务的新型基础设施,以高性能智算网络作为提升集群算力性能的关键抓手,突破智能算力供给瓶颈,纵深推进产业转型升级,助力数字经济点燃高质量发展新“引擎”。

大模型时代将至,智算需求激增

当前中国5G网络建设和应用走在了世界前列,据中国工信部统计,截至2023年底,中国5G基站总数达337.7万个,5G移动电话用户达8.05亿户,5G应用案例超过9.4万个,在工业、矿业、电力、港口、医疗等多个行业加快推广。随着5G普及推广,5G应用产生了海量数据,海量数据拉动了AI技术突破及应用,网络流量持续增长,叠加数据智能化处理快速发展,算网基础设施能耗也持续走高。

产业数字化需要多种新型数字技术聚合应用,其中5G+AI成为创新应用的主要特征。而且随着AI大模型技术突破,需要大量算力进行模型训练及推理,算力呈现出前所未有的指数级增长态势。根据相关机构预测,2025年到2030年全球算力年复合增长率超过70%。中国的近期规划目标2025年算力规模要超过300EFLOPS,其中智能算力占比达到35%。

作为智能算力的主要载体,智算基础设施的发展对技术进步和行业应用起到了决定性作用。在人工智能向场景化、规模化、融合化演进的过程中,预训练的数据体量和算法模型的参数量还将急剧攀升,智算基础设施也将逐渐具备高性能、高互联、泛在化、多元化等竞争力标签。

在此背景下,大模型日益成为国家科技竞争焦点。而中国电信的星辰大模型一经发布就惊艳了全球。“星辰大模型完全基于电信自主研发,不基于任何开源项目,数据自主采集,做到了100%安全、可控。”中电信人工智能科技(北京)有限公司AI战略研究部副主任臧振武表示:“坚实的技术积累奠定大模型基石。‘百模大战’甚至‘千模大战’将持续上演,中国电信聚焦数据、模型、标准、生态等方面,砥砺前行,携手伙伴,共同打造中国的大模型应用繁荣生态。”

“网是网,算是算”的问题仍存在

作为智能算力的主要载体,智算基础设施的建设是大模型发展的重要环节,如何建设支撑大模型发展需求的智算中心等智算基础设施,不仅涉及计算芯片、互联网络、节能减碳、开发框架等技术问题,还需要考虑投资成本、运营维护、升级演进等商业因素,同时兼顾技术可行性和经济可行性。当前,算力时代奔涌而来,产业链企业纷纷加大算力布局力度,持续引领算力网络发展,致力于实现网络无所不达、算力无处不在、智能无所不及。但是智算基础设施建设是一个长期过程,难以一蹴而就。

一方面,网络极致性能问题亟待解决。从4G网络到5G网络,底层核心变化是从2C应用为主拓展到2B领域,实现“万物互联”是5G网络建设的初衷。面向行业应用,除了带宽升级的遗留问题之外,更大的新挑战来自时延、可靠性等方面。在大模型时代,网络能力和计算能力更应高度匹配,AI大模型训练需要将数千甚至数万颗GPU芯片互联,以实现并行计算,集群体量远超以CPU为主的传统数据中心。

另一方面,面临通信性能的挑战。在大模型训练场景下,机内GPU通信和机外集合通信将产生大量通信需求。例如,千亿级参数的大模型并行训练所产生的集合通信数据将达到数百GB量级,若要在极短时间内完成参数交换,将对GPU与GPU间、GPU与网卡间、网卡与网卡间的超高带宽互联提出较高要求。此外,网络拥塞和丢包将严重影响GPU计算效率,据实验统计,0.1%的网络丢包率就会带来50%的算力损失,因此提升通信性能可有效释放智能算力。

数智时代,网络在加速演进,算力在加速升级,但依然存在“网是网,算是算,安全为补充”的融合问题。中国电信正与广大合作伙伴开放合作,围绕极效网络、智能算力、绿色算网等重点方向,技术创新驱动,创新应用牵引,共同致力于算网强基,加快释放数智活力。

算网协同,打造数实融合“新基建”

为满足日益增长的智算需求,依托网络资源禀赋,将离散的智算中心资源进行整合,实现算力的高效利用和资源共享,是当前阶段突破算力供给难题的有效发力点。正如中国电信研究院傅志仁所言,“以网补算”是夯实大模型基础设施的重要发力方向,包含“入算、算内、算间”三个组成部分。

新基建是智慧经济时代贯彻新发展理念,吸收新科技革命成果,以人工智能、云计算、区块链等为代表的新技术基础设施,以数据中心、智能计算中心为代表的算力基础设施是数字化时代下信息基础设施构成主要因素。当前,云计算正在步入由人工智能驱动的新一轮发展浪潮,中国电信不断推动构建集自主可控、智能敏捷、安全可信、绿色低碳、应用牵引为一体的云网智算能力。

中国电信推出了具有“泛在接入、随建随用、算网协同、安全可信”特性的“超算快线”产品,提供海量数据异属、异构、异域“入算”的统一解决方案;联合中科院高能物理研究所和成都国家超算中心,开展LHAASO数据基于“超算快线”传送方案的创新试验验证;实现业界首次40分钟内跨2000千米传输1.6TB数据,为“东数西算”海量数据跨域自动调度提供了创新解决方案。

对于“算内”部分,中国电信着力解决因网络能力不足导致算力效率降低的技术问题,以及单点算力规模偏小导致集群能力不足的产业问题。打造云网融合“大科创装置”。作为科研专用网络,“大科创装置”承担科研攻关、测试认证、人才培养和用户体验等多方面任务,具备覆盖14个省、40个节点(20个骨干节点和20个接入节点)的广域互联底座,为智算中心各项试验奠定了坚实的网络基础。

对于“算间”部分,中国电信致力于建立面向异构资源的全国一体化管控机制,实现多用户、多作业的任务分发调度。自研拥塞控制算法CTCC,通过端侧精细化流控与运维工具,有效控制交换机队列长度、降低小流延迟,实现部分配置下的“零丢包”。

单丝不成线,独木不成林。下一步,中国电信将同产业链携手共进、凝聚合力,加快建设泛在领先的智算网络数字基础设施,推进智算产业协同创新、促进智算应用走深向实。

发布于:福建

相关推荐

以网补算 破解智算基础设施供给难题
聚焦2023中国算力大会 | 拆解算力“偏科”难题 需推动算力供给高效普惠
强化智能算力集群供给 深圳夯实人工智能高质量发展算力基座
谁在第一方阵?运营商进击智算中心
中国移动算力最大的智算中心投产 部署2万张AI加速卡
联想陈振宽:异构智算 释放AI基础设施新动能
中科院的智算平台,有哪些亮点?
能源跨界 | 智算中心建设正当时!
我国算力总规模居全球第二位!“东数西算”进展如何?
九章云极DataCanvas AIDC OS智算操作系统正式发布,开启AI智算新纪元

网址: 以网补算 破解智算基础设施供给难题 http://www.xishuta.com/newsview120280.html

所属分类:行业热点

推荐科技快讯