首页科技快讯大模型带动算力需求激增，AI基础设施如何应对新挑战？

大模型带动算力需求激增，AI基础设施如何应对新挑战？

来源：晰数塔互联网快讯时间：2023年11月01日 00:49

大模型时代，企业对算力的需求激增，然而模型的训练不仅仅是堆算力就可以解决所有问题，如何保障大模型训练的稳定性和效率，对AI基础设施提出了挑战。

百度智能云《智能云知道》&CSDN系列对话栏目上线，首期邀请面壁智能副总裁缪钧玮、百度智能云泛科技行业解决方案总经理康盛，分享对于大模型核心技术与底层基础设施算力的经验与实践。

AI 从单体智能到群体智能

对底层基础设施提出挑战

大模型正掀起新一轮智能化热潮，在面壁智能副总裁缪钧玮看来，大模型代表着迈向通用人工智能的重要进展。具体来说，大模型可以像人类个人助理那样，理解任务、制定计划、最终完成工作。未来人类能够做到的事情，大模型都有可能实现。不过，人工智能要真正服务于社会，就必须融入各行各业，而不是局限于实验室的研究。当前大模型技术虽然还不成熟，但已经展现出在实际场景中快速取得进展的可能。

具体来说，目前大模型已达到的能力大致可分为助手型与专家型两类。例如大模型在文档编写、客户服务、产品设计等领域可以担任虚拟助手，辅助人类完成重复性强、劳动密集型的工作，提升办公效率。另外，通过训练，大模型已经可以在特定领域扮演专家角色，提供智能咨询和决策支持。更远的未来，大模型还将从单体智能走向群体智能的演变。不过要实现大模型从单体到群体、从理性到感性的飞跃，仍需要解决许多技术难题。其中最关键的就是计算资源和基础设施对大模型的支撑。

目前主流的大模型都是建立在巨大的参数量和运算量之上，对算力提出了极高要求。随着模型规模指数级增长，训练一个模型不仅需要大量 GPU 服务器，也依赖高速网络进行交换通信。仅靠增加算力投入是不可持续的，必须从模型压缩、知识蒸馏、多任务学习等方面入手，以提高计算效率。此外，构建健壮的模型服务系统也是一个巨大的系统工程。需要从芯片、框架、模型到应用的全链路来进行优化，保证大规模模型稳定高效地运行。计算资源管理、异构环境调度、故障容错等方面的能力都极为关键。

百度智能云

全栈自研与调优的 AI 基础设施

百度智能云泛科技行业解决方案总经理康盛介绍，百度投入人工智能已经超过 10 年，在芯片、框架、模型、应用四层有全栈布局，在关键核心技术攻坚上，四层架构都有自主研发的领先产品和技术，因此可以进行端到端的优化，迅速提升大模型训练和推理的效率。

对于 AI 基础设施的挑战，从底层到上层看，构建和应用大模型面临基础设施、框架、模型、应用等多方面挑战。要从零做起，难度和成本都非常大。针对这一现状，百度智能云推出了一站式企业级大模型平台——百度智能云千帆，提供先进的生成式AI生产及应用全流程开发工具链。平台上不仅涵盖文心大模型，还聚合了业界众多主流的预训练模型，同时也在吸纳更多领先机构的模型，比如已进行了与面壁智能的模型对接。通过平台化赋能，百度智能云希望可以帮助企业和开发者高效利用大模型技术，快速进行产品研发和创新应用。

具体来说，在模型训练过程中，通过任务并行、数据并行、模型并行、流水线并行等策略，实现资源利用效率最大化，另外通过自研的异构集合通信库 ECCL，支持多种芯片协同工作，进行故障感知和容错处理，确保训练效率。

可以说，百度智能云在大模型训练的资源调度、并行策略、基础通信等方面进行了深入的系统优化，构建了一整套行之有效的解决方案，为大模型提供了坚实基础支撑，确保大模型运行的稳定与高效。

百度智能云+面壁智能

加速千行百业 AI 开发

AI 从单体智能走向群体智能，从科研走向千行百业，还需要深化大模型与实际业务场景的结合。从实际应用情况看，康盛提到企业用户主要有几类：

一是有算法实力的企业如面壁智能，可以自主训练大模型，但面临工程化挑战，需要高性能的 GPU 集群、高速互联网络，还需解决训练和推理优化等问题。二是希望以最优的人力和成本、直接使用现有大模型的企业。三是拥有行业和企业内部数据，基于现有大模型进行二次开发构建行业定制化模型。四是需要基于大模型服务完成AI原生应用快速开发。最后，是希望能直接、方便地选购成熟的AI原生应用产品，来赋能企业业务发展。而以上提及的企业落地大模型的五类需求，在百度智能云基于千帆大模型平台打造的“大模型超级工厂”中都分别给出了最佳服务方案。

作为国内技术领先的人工智能大模型公司，面壁智能会将模型托管在百度智能云千帆大模型平台，以降低运维和研发成本，从而将精力集中在基座模型科研，以及模型安全性、行业模型、API 开发等大模型重要的技术方向上。百度智能云为面壁智能提供 GPU 集群、高速存储、网络等底层支撑，并通过各种并行策略进行资源调度优化，确保模型高效稳定训练。同时，也会在模型推理服务方面进行协作，实现推理性能的优化。

节目完整视频，欢迎点击观看：

AI 的发展瞬息万变，我们能看到，百度智能云与面壁智能这种开放合作的模式，将加速大模型在千行百业的应用与普及。百度智能云《智能云知道》&CSDN 系列对话栏目也将继续走进大模型在各行业的落地与最佳实践，敬请持续关注。

大模型时代，如何利用“算力”和“智力”构建超强AI基础设施也成为企业重点关注的议题，2023年10月26日，生态共创与技术交流沙龙将在北京举办，诚邀您现场参会加入到“智力”与“算力”的共创浪潮中。扫描下方二维码立即报名↓

发布于：江苏