首页科技快讯梭哈大模型的公司，给自己找了条退路

梭哈大模型的公司，给自己找了条退路

来源：晰数塔互联网快讯时间：2024年02月01日 21:31

2月1日，面壁智能发布了最新的旗舰端侧AI大模型MiniCPM-2B，参数规模为20亿，使用了1TB精选数据进行训练。

面壁智能CEO李大海在发布会上称，MiniCPM-2B在多项主流评测榜单、中英文平均成绩均超越了开源的Mistral-7B，英文榜单的平均分甚至超越了Falcon-40B、MPT-30B等百亿参数模型。

虽然面壁智能仍将MiniCPM-2B定义为“大模型”，但在动辄千亿、万亿参数规模的大语言模型（LLM）背景下，很多人认为只有几十亿参数的模型应该叫做“小模型”。

在2024年1月的达沃斯世界经济论坛期间，微软首席执行官Satya Nadella接受Bloomberg采访时曾夸赞微软的Phi是“最好的SLM（小语言模型）”。Nadella表示，在AI方面微软牢牢“掌握着自己的命运”，不会只依赖OpenAI的大语言模型。

Phi是微软在2023年6月公布的一款拥有13亿参数的语言模型，9月公布的Phi-2参数规模扩大到了27亿，在一些常识推理、语言理解、数学和编码任务上，Phi-2甚至超越了70亿和130亿参数的Llama 2。

据外媒The Information报道，微软已经组建了一个新团队开发对话式AI。与OpenAI的模型相比，该团队的研究方向更偏向于小规模，低算力需求的模型。知情人士透露，微软已将几位顶尖AI开发人员从其它研究小组调至这个新团队。

在AI大模型之外另辟蹊径，或许是微软在AI时代掌握自己命运的最佳选择。而对于那些没有条件“依赖”OpenAI，也很难追赶OpenAI的公司来说，微软的做法似乎成为了一种启示——在业界普遍关注超大规模参数量的时候，反其道而行之的“小模型”，似乎正在成为All in AI大模型的一条“退路”。

“小模型”的优势是什么？

事实上，AI业界对小模型的定义并不统一。面壁智能首席研究员韩旭表示，“不是20亿参数的模型小，而是1万亿参数的模型太大了，应该称GPT-4这类的模型为超大模型。”中工互联创始人智振则认为，10-30亿参数的模型，比较适合称为轻量化大模型，或是嵌入式大模型。”

在2023年中发布的大语言模型（LLM）并不都具备超大规模参数。除了几个业内顶尖的大模型之外，主流的开源模型多数为70亿、130亿参数量。Meta发布的LLaMA 2系列模型，最大参数量也只有700亿。

对于一些AI公司来说，训练和推理成本是限制模型参数规模的主要原因之一，业内普遍认为，GPT-4训练一次的成本约为6300万美元。

LLaMA 2的论文中提到了训练模型过程中使用NVIDIA A100 80GB版本的用量，训练70亿参数模型约需要18万GPU hours，训练700亿参数模型所需的算力资源则相应地翻了10倍，达到172万GPU hours。

LLaMA 2 论文

按照阿里云目前的报价，8张40G的A100 GPU服务器，每小时租赁成本是252.66元人民币。即便把40G的A100当成80G的来用，在阿里云上要完成一次LLaMA 2的700亿参数模型训练，也需要5433万元。如果把参数量压缩到20亿，训练一次的成本可能只要不到200万元。

GPT-4这样的超大模型在推理成本方面，也比参数量较小的模型高出很多。

1月25日，OpenAI宣布了2024年第一次API价格调整，GPT-3.5-Turbo的最新的输入价格将降低50%，至0.0005美元/1000 tokens，输出价格则降低25%，至0.0015美元/1000 tokens。

目前OpenAI最贵的API是GPT-4-32k，输入价格为：0.06美元/ 1000 tokens，输出价格为：0.12美元/ 1000 tokens。相比于参数量较小的GPT-3.5-Turbo，GPT-4-32k的定价分别贵了120倍和80倍。

GPT-4和GPT-3.5-Turbo之间的参数量还不是很大。如果把模型压缩到十亿级别，那么运行模型的推理成本则可以降低到约等于购买运行模型的端侧设备成本。

目前，很多模型已经可以绕开云服务，直接在本地的PC端进行训练和推理。在高端的PC设备方面，已经有开发者尝试用苹果的统一内存架构芯片研究LLM，在配备了M2芯片和192GB内存的Mac Studio上，甚至可以跑700亿参数的LLaMA 2模型。

面壁智能最新发布的MiniCPM-2B把“小模型”的运行环境又调低了一个层级，在MiniCPM-2B的发布会上，李大海现场演示了该模型在OPPO Find N3上完成的离线推理。文本处理速度也很快，几乎达到了7 tokens/s。

“以配备骁龙855芯片的OPPO手机为例，一台手机的成本约为600元人民币，使用5年。按每秒吞吐7.5 tokens算，输出170万tokens的推理成本仅为1元。”李大海介绍说，目前GPT-4的推理成本约为1人民币4700 tokens。当前手机端还没有针对AI推理进行大规模优化，随着端侧模型的普及，未来手机的推理成本还会进一步下降。

除了本身算力需求低、不挑卡以外，参数规模较小的模型还更“喜欢”中低端GPU。

2023年11月，麻省理工学院（MIT）的一篇论文中介绍了其在Supercloud高性能计算系统上使用不同规模的LLaMA模型（7B，13B和65B）进行的推理实验，实验显示模型的参数量越小，同等硬件环境下的功耗越低。

有趣的是，虽然三种尺寸的LLaMA模型在使用显存、功耗较低的V100 GPU时，每秒能量消耗均比A100有显著下降，但其中参数量最小的7B模型能耗下降更为明显。

来源：From Words to Watts: Benchmarking the Energy Costs of Large Language Model Inference

相对于超大参数规模的LLM，“小”模型最大的优势就是更“省”，不仅省电、省钱，还省时间。而这个“省”的特性，也注定了小尺寸模型更容易落地，更容易赚钱。

“大型公共模型本身几乎没有为企业提供任何价值。”戴尔人工智能战略高级副总裁Matt Baker在谈到与Meta合作的LLaMA 2落地业务时曾表示，客户不应该为那些对他们业务知之甚少的超大AI模型付费。

Matt指出了一个关键问题——虽然参数规模较小的LLM在模型能力等方面与超大模型存在一定差距。但今天的很多垂直场景，对于AI大模型的通用性、泛化性要求并没有那么高，有些行业用户甚至希望AI不要太“发散”。

“小模型”需求无处不在

虽然面壁智能在发布MiniCPM的时候，并没有明确提出应用场景，而只是给出了一个半玩笑式的应用场合——野外生存锦囊。但当AI大模型能够在手机、电脑端流畅运行，则给应用落地提供了巨大的想象空间。

事实上，超大AI模型在用户需求层面存在着一定程度的背离，在工业、金融、汽车三个急需AI落地的领域里，尤为明显。

“工业领域的知识有其普遍性，因此工业AI并不一定非得要巨大的参数量。”智振认为，在不同工厂和行业中，很多数据和标准高度相似，例如配电和工厂的建筑标准。对于数据和标准差别较大的行业，则可以有针对性地开发专门的模型。AI大模型在工业场景中的作用，更多是理解非结构化的问题，然后帮助人类找到标准答案。目前中工互联已经开源了一款16亿参数的轻量化大模型——智工（Zhigong-1.6B）。

工业场景虽多，但工业企业普遍不富，因此落地速度也相对较慢。目前，AI业界普遍认为大模型落地最快的领域是金融。

“银行的数据基础好，出手也相对慷慨”，智谱AI首席执行官张鹏告诉虎嗅，很多国内AI公司的早期客户都来自金融行业，智谱AI也为金融行业客户专门定制了行业技术模型FinGLM。

在很多金融场景中，基金经理或是股票交易员，每天需要处理海量新闻信息，作为AI Copilots的用户，他们不仅需要技术的泛化能力，更需要能够与特定应用场景紧密结合的解决方案，AI技术的应用可以显著提高他们的工作效率。

据The Information报道，微软的“小模型”已经开始在一些金融和银行客户中进行测试，其中高盛就一直在测试微软的Phi模型。

金融行业对轻量化大模型的态度明显更加友好。首先，出于安全考虑，金融行业无法接受基于公有云运行的AI大模型，有些场景可能会用到私有云，有些地方则需要离线的端侧设备上运行AI。受基础设施的限制，需要大算力的超大参数模型很难落地。

此外，金融行业对于AI的实时响应效率要求很高。参数过大的模型在响应速度方面，不仅受制于运算推理速度，还会被网络速度影响。在一些需要实时交易或者研判的金融场景中，零点几秒的延迟，都有可能错过巨大的利益。因此，能否本地化部署成了一些客户选择AI模型的一个参考条件。

微软透露的消息称，面向银行和对冲基金等主要客户的AI Copilot项目，目前能够实现自动编程、撰写报告、数据汇总与分析等很多功能，预计将带来100亿美元的收入。

过去一年，包括Jane Street和Intuit在内的金融公司，通过微软购买OpenAI技术，摩根大通也增加了其在微软云上的OpenAI模型采购，用于开发客户服务聊天机器人和自动生成企业收益报告工具。

花旗银行、摩根大通和高盛等金融巨头，在2023年下半年均加大了对微软人工智能产品的投入。这些产品不仅有办公软件中的Copilots，还包括了一些定制的人工智能模型开发服务。

除了工业和银行外，AI大模型另一个主要落地场景是汽车。

2024年初的CES上，奔驰、宝马、大众等纷纷展示了融合最新AI大模型技术的车机系统。国内的比亚迪，也在近期推出了全新的整车智能化架构“璇玑”及其AI大模型“璇玑AI大模型”。

汽车无疑是电脑、手机之外的最重要的终端设备，新能源车的快速发展，使车机系统有机会变得像手机一样无所不能。这也使得众多手机厂商纷纷转型造车，以期通过手机端的产品思维，跨界抢占新的终端市场。

在AI大模型的爆发之年，“软件定义汽车”的概念迅速崛起，驾驶环境的特殊性，可以说给AI大模型在车上提供了天然的落地环境。

然而，基于云服务的主流大模型要上车，难免会受到网络环境的限制。尽管在过去几年中，汽车行业在车联网的发展中投入巨大，但汽车的使用场景过于复杂，很难实现驾驶过程的全程联网。因此，离线运行能力在很多AI大模型“上车”的场景中尤为重要。

这也给轻量化模型在车机系统方面提供了很多机会。

业界巨头，早已“暗暗”布局

在市场对AI需求持续上涨中，供应端在2024年对生成式AI的关注点正在快速发生转移。

面壁智能本次发布的MiniCPM-2B并非孤例，轻量化模型、端侧AI已经隐隐成为AI大战新的主战场。

在AI大模型的研发侧，国内外最先关注“小模型”的公司，却是在刻板印象里，那些只应钟爱超大模型的头部云厂商。

阿里云在2023年12月推出了18亿参数的通义千问-1.8B（Qwen-1.8B），以及利用对齐机制打造的AI助手Qwen-1.8B-Chat。这款模型使用超过2.2万亿tokens的数据进行预训练，包含高质量中、英、多语言、代码、数学等数据，涵盖通用及专业领域的训练语料。

阿里云CTO周靖人表示：我们希望有了这款模型之后，大家有更多的开放式探索，像机器人、IoT，可以把这些“小模型”集成到端上，这是一个趋势。

除了推出小参数量的LLM，通义千问在模型的量化压缩过程中也表现良好。开源的70亿参数Qwen-7B，在模型的量化和压缩性能方面得到了一些行业的认可。联想正在研发的AI PC功能中，就基于Qwen-7B模型做了一些量化和压缩工作。

“原来一个参数用两个字节来存储，经过压缩，一个参数只有半个字节就可以存储，且还能保持原有的模型性能。”联想研究院研究员谢栋表示，压缩后的AI大模型+电脑本身的缓存，大概只要5-6G内存就能运行起来。“在参数量不变的情况下，我们可以把原始大小为14.4GB的Qwen-7B压缩到4GB。”

MiniCPM-2B也对模型进行了INT4量化，模型的总存储量仅有2GB。

模型参数量的大幅下降，使AI不再局限于云，AI大模型的战火也开始从模型烧到终端。

在PC端，微软再度成为风暴中心。

过去十几年中，虽然微软不断加大云计算的投入，但核心业务始终围绕传统软件和PC。如果AI一直依云而生，虽然对Azure业务促进很大，但在PC业务方面，微软可能需要花更大的精力去“重做”Windows和Windows PC。

在2024年CES前夕，微软就宣布了在新款Windows 11电脑上配备了Copilot按钮，可以一键调用AI聊天机器人，Windows PC键盘布局上次重大变革还是在30年前。除了增加按钮，微软也正在尝试使用简化的语言模型（SLM）来处理Bing AI聊天机器人和Windows Copilot用户的基本查询。

除了微软和联想等PC厂商，手机厂商也正在积极研发新产品，加速轻量化的AI大模型落地。

1月18日，三星推出了首款AI手机Galaxy S24系列手机，具备通话实时翻译、AI图像编辑等多种AI功能。国内手机厂商VIVO也推出了蓝心系列大模型系列，其中包含了参数量较小的十亿级别模型，主要面向端侧场景打造专业文本大模型，具备本地化的文本总结、摘要等能力。

在谷歌最新发布的Gemini大模型中，参数规模最小的Gemini-nano也已经预定到了谷歌的Pixel 8 Pro智能手机中。

目前，MiniCPM-2B已在多款主流手机中都跑出了较好的成绩。

MiniCPM-2B在主流手机上的输出速度

结语

受主流大厂、场景化需求的驱动，市占额达90%的英伟达，也正面临着云端协同的新变局，终端AI的快速发展，或将推动端侧硬件抢走云端独占的AI算力需求。

高通在2023年10月推出的最新移动端芯片骁龙 X Elite Oryon CPU，集成了转为AI打造的高通Oryon CPU，支持在终端侧运行超过130 亿参数的AI大模型，运行70亿参数的大模型时每秒可生成30 tokens。

2024年1月刚过，轻量化AI模型和AI硬件的市场上，已经推出了多款新品。AI在端侧的落地还在持续加速，轻量化模型，以及针对这些模型开发的硬件产品，正在开启AI硬件的混战之年，或也将给2024打上“AI硬件元年”的标签。

在谈到缩小参数规模，是否会限制AGI的未来发展时，清华大学长聘副教授刘知远表示，“在我来看大模型不是产品，而是一项技术。”他认为，如果只是看模型参数规模，今天的MiniCPM可能跟5年前的BERT规模差不多。但大模型的技术体系已经发生了翻天覆地的变化。“技术是一脉相承的，如果我可以让一个20亿参数模型，实现40亿模型的效果，那我也可以用这样的技术做800亿的模型，甚至8000亿的模型。”