首页科技快讯 MiniMax开年甩出一张王炸

MiniMax开年甩出一张王炸

来源：晰数塔互联网快讯时间：2025年01月18日 20:52

MiniMax有点“变味儿”了？

此前，凭借海螺AI等C端产品在海外爆火的大模型厂商MiniMax，近期打出了一张“技术牌”。

1月15日，他们发布并开源新一代01系列模型（基础语言大模型 MiniMax-Text-01 和视觉多模态大模型MiniMax-VL-01）。值得注意的是，得益于创新性地大规模引入线性注意力机制，01系列模型支持最多400万个token的上下文输入。这是MiniMax在基于MoE架构的abab系列文本模型上的再度创新。

亮出底牌，似乎也回应了当下对大模型公司们的“灵魂拷问”——究竟做不做预训练？还追不追求AGI？

“这个模型的结构是独特、创新的，只能是靠自己预训练来的。”MiniMax这样对虎嗅表示。换言之，MiniMax目前依然坚持预训练的投入。

MiniMax向虎嗅透露，未来他们的技术迭代方向为：“短期来看，把复杂coding的基础能力逐渐完善；长期来说，我们把包含多模态的agent能力做好。”

而回到MiniMax出发的原点，在2021年9月MiniMax成立前的白板前，创始人闫俊杰就清晰地列下了未来的愿景：下一代AI、接近图灵测试的智能体、智能创造极致体验。为了让员工有更具像化的感受，他还在当场与《底特律·变人》、“贾维斯”等经典IP作为对比。

即便三年后，Scaling Law 撞墙、AGI信仰面临重构，但闫俊杰坚信MiniMax会一直在浪潮中，并把技术迭代作为最重要的目标。。

鲜明的技术派

实际上，虽然最初凭借Glow、星野等C端产品出圈，但MiniMax团队素来认为自己的的技术底色浓重。

此前虎嗅与MiniMax交流时，对方就强调“对我们公司来讲，我们肯定是先做技术上的东西。技术模型能够提供什么样的能力，我们再看自己的产品可不可以调整。如果实在调整不了，那有可能会有新的APP出来。”

而更重要的是，他们认为“通用基础大模型才是这一波大模型浪潮的王道。”

因此不难理解，在其他友商选择追求现实主义路线、转投新赛道时，MiniMax却选择继续重投基础模型架构的创新。

曾经，AI学术界不断迭代升级的技术路线就像接力赛，每隔一年或半年总会有更好的模型涌现。1998年，杨立昆提出了多层CNN卷积神经网络；2016年，最流行的是RNN循环神经网络的变种——LSTM；半年后，与其对标的Transformer横空出世。然而，人们预想的能够颠覆Transformer架构的新模型并没有出现。

而Transformer架构的局限性也满足不了一些应用场景的要求——例如，在生成长文本时，传统Transformer架构可能会丧失上下文的连贯性，尤其是当输入文本较长且模型只关注局部上下文时。生成的文本可能缺乏一致性，或者前后内容有明显的脱节，无法满足一些对文本连贯性要求较高的应用场景，比如对长上下文能力与多模态处理能力要求较高的Agent场景。

因此，MiniMax引入了线性注意力机制，这有利于解决传统Transformer架构下长文本计算复杂度高、上下文理解受限、内存消耗大的问题。通过这一架构创新，他们实现了400万token的上下文处理能力。作为对比，此前GPT-4o、Claude-3.5-Sonnet的相关能力大约在100k水平左右。

受益于Linear Attention层面的架构创新、算力层面的优化，以及集群上的训推一体的设计，使得01系列模型定价也被团队视为竞争力之一——标准定价是输入token 1元/百万token，输出token 8元/百万token。这里我们可以以Deepseek v3的定价对比，Deepseek v3 API 服务定价为，输入2 元 / 百万token，输出8 元/ 百万token。

相对而言，DeepSeek的新架构降低成本上表现突出，并且主要面向大集群训练、部署服务，用云提供用户服务的极致优化。而MiniMax的新架构，在超长文本输入方面表现优异，在400万的大海捞针任务（测试超长文本的任务）表现中取得全绿结果。

MiniMax观察到，“未来一年潜在Agent相关应用即将爆发，而Agent需要越来越长的context”，因此MiniMax在Github上开源了Text-01模型和VL-01模型的完整权重，在海外受到了硅谷研究员、从业者的关注。他们认为这将吸引大量的开发者和研究人员进行二次开发和创新，进一步拓展模型的应用场景和功能。

Intelligence with Everyone

MiniMax的slogan是与用户共创智能。

虽然MiniMax认为“不是用户越多，模型能力就提升越快”，但据MiniMax介绍“他们是国内日处理量、交互时长最高的大模型公司。”随着产品矩阵的完善，早在去年8月时，MiniMax大模型每日与全球用户的交互次数达到了30亿次。

技术驱动，以模型技术能力边界调整产品方向的路线，贯穿MiniMax的始终。

这里可以以MiniMax的产品更迭为例，MiniMax每代产品和功能的推出背后，都吻合了当时的模型能力边界。

彼时，大模型普遍面临幻觉严重的问题，在这一瓶颈下，AI社区类APP无疑是当时AI to C产品炙手可热的方向。据Sensor Tower数据显示，自发布以来，海外版星野Talkie一直位居全球AI应用下载量的前3名。

随着模型能力提升，使得AI生产力成为可能，MiniMax推出了工具类产品海螺AI，并将其作为公司重点发力的产品。

MiniMax也早早押注了多模态赛道。2024年8月份，MiniMax发布了视频模型abab-video-1、音乐模型abab-music-1，同时在海螺AI上线。据MiniMax介绍，视频模型上线后五周，海螺AI网页版访问量增速超800%。

除C端应用外，MiniMax也在探索B端应用，面向企业客户提供大模型应用解决方案。MiniMax开放平台主要提供API服务，支持的行业场景涵盖了办公协作、智能制造、数字经济、医疗、客服、智能网联。他们在算力层的部署达到了万卡级算力池。据MiniMax介绍，开放平台在国内拥有超40000家企业与开发者用户，并在海外20余个国家实现业务落地。

而最新推出的01系列模型，也已经应用于海螺AI，MiniMax也观察到，在模型应用于海螺AI后，“赋予了海螺AI更强的通用能力，包括长文的理解和创作等。”

除此之外，MiniMax-01也在开放平台也同步上线，方便开发者和企业集成到自己的系统中。

（Tips：我是虎嗅科技医疗组的王欣，关注AI及创投领域，行业人士交流可加微信：13206438539，请注明身份。）