首页科技快讯北航团队提出专家协同框架，小尺寸大模型协同效果或优于“巨无霸”大模型

北航团队提出专家协同框架，小尺寸大模型协同效果或优于“巨无霸”大模型

来源：晰数塔互联网快讯时间：2025年01月29日 05:16

目前，以工业界为主导的大模型研究，主要通过拼算力、拼数据的方式，训练出一系列“巨无霸”大模型，并在各个评测榜单上争夺“头把交椅”，以此增强在大模型领域的影响力。

然而，这种以竞争内卷为主的“个人英雄主义”思路，不仅会让大模型在训练时消耗大量算力，还会导致其在真正应用时，出现推理成本过高而实用性不足的问题。

那么，为了解决上述问题，能否采用以合作共赢为主的“团队合作主义”思路，允许多个小尺寸大模型协同工作，以达到甚至优于那些参数量非常大的大模型才能实现的效果呢？

近期，来自北京航空航天大学的团队提出了一个利用评测榜单的专家协同框架 Bench-CoE。

该框架包含了一组由大语言模型驱动的专家模型（可以是多模态模型，其特点为用自然语言来交互信息），一系列评测榜单信息，以及一个用来选择专家模型执行具体任务的路由模型。

基于该框架，该课题组通过训练路由模型，针对具体的任务实例找到合适的专家模型来完成相应的任务。

图丨 Bench-CoE 的框架（来源：arXiv）

北京航空航天大学博士研究生王元帅、赵金琨和硕士研究生张行健是共同第一作者，北京航空航天大学吴文峻教授和黄雷副教授担任共同通讯作者。

图丨相关论文（来源：arXiv）

“这种利用评测榜单来训练路由的方式，核心在于如何基于评测榜单，给具体的一次任务实例打上标签，并将这些标签关联到对应的专家模型。”黄雷解释道。

图丨黄雷（来源：黄雷）

具体来说，研究人员抽象总结了两类范式。

第一类是具体样例级的标签。

通过对评测榜单具体任务的一个测试样例进行测试，能够知晓待评测专家模型在这个测试样例上的执行情况。

第二类是科目级的标签。

评测榜单分层级评估大模型的不同能力，如数学、代码、物理等。

“我们可以把具体样例级的标签，看作团队成员在考试时做某道题的正确情况；而科目级的标签则看作团队成员具体的能力评价，如大学期间某门考试的评分或者某类考试的综合分。”黄雷说。

在此基础上，还存在一类必须考虑的问题，即如何评价该团队构建的专家协同模型是否优异。

原因在于，前文提到的路由是基于评测榜单训练的，假如研究人员也在这些评测榜单上评测专家协同模型，可能会导致后者产生过拟合评测榜单的风险。

因此，该课题组考虑了 Naïve 评测、分布内评测和分布外评测这三类评测方式，并通过实验发现，利用科目级的标签简单训练路由模型所构建的专家协同模型，在分布外评测下仍然优于单个最强的模型，这表明该模型具有较好的泛化能力。

不过，也要说明的是，在该研究中，研究人员给整个框架设定了一个基本假设：不存在一个专家模型在各方面都优于其他专家模型。

“我们认为这种假设是合理的，与‘三十六行，行行出状元；高矮胖瘦人，人人有长处’的古语非常相符。”黄雷说。

显然，这种基于专家协同并利用评测榜单来构建集成大模型 Bench-CoE 的方式，在大模型技术部署落地应用方面具有重大潜力。

首先，其训练成本非常低，仅用一块基础的图形处理器就能完成训练。

其次，Bench-CoE 在推理时强调，只选择一个小尺寸大模型去执行任务，开销要比那些“巨无霸”大模型小得多。

最后，由于借助评测榜单可以提前知晓这些小尺寸大模型的擅长之处，因此根据 Bench-CoE 的路由结果，可以比较清晰地知道所要执行的任务属于哪一类，从而能在一定程度上实现推理的可解释性。

而在目前研究的基础上，该课题组也计划进一步针对真实的应用场景构建 Bench-CoE。

例如，在专家模型层面，选择更具差异化、经过领域微调的小尺寸大模型；在路由训练层面，构建层次化路由，以实现输入数据的多模态性。

另外，他们还打算从机器学习的角度入手，更好地理解 Bench-CoE 的分布外泛化能力，并构建分布外泛化能力更强的路由算法。

参考资料：

1. Wang Y, Zhang X, Zhao J, et al. Bench-CoE: a Framework for Collaboration of Experts from Benchmark. arXiv:2412.04167, 2024.https://doi.org/10.48550/arXiv.2412.04167

排版：刘雅坤

发布于：北京

北航团队提出专家协同框架，小尺寸大模型协同效果或优于“巨无霸”大模型

推荐科技快讯

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

人类唯一的出路：变成人工智能（三）

饿了么口碑：今年计划招5000名员工、增80万骑手

盖茨力劝美国用核技术解决气候变化愿掏数十亿腰包

北航团队提出专家协同框架，小尺寸大模型协同效果或优于“巨无霸”大模型

推荐科技快讯

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

人类唯一的出路：变成人工智能（三）

饿了么口碑：今年计划招5000名员工、增80万骑手

盖茨力劝美国用核技术解决气候变化 愿掏数十亿腰包

盖茨力劝美国用核技术解决气候变化愿掏数十亿腰包