首页科技快讯港中大团队设计多模态学习框架Meta-Transformer，实现同时处理12种模态统一学习

港中大团队设计多模态学习框架Meta-Transformer，实现同时处理12种模态统一学习

来源：晰数塔互联网快讯时间：2023年09月19日 18:06

香港中文大学与上海人工智能实验室团队合作，在多模态感知方向开辟了新的研究思路。他们设计了一款多模态学习统一框架 Meta-Transformer，首次能够在没有配对数据的情况下，实现 12 种模态统一学习。

它解决了不同模态数据的问题，包括如何使用统一的框架处理自然语言、2D 图像、3D 点云、音频、高光谱图、时序数据等。该框架将各模态的原始输入数据，转换为共享的 token 空间，然后使用拥有冻结参数的编码器，提取输入数据的高级语义特征。

该研究相对于传统的单模态感知工作实现了重大突破，对天然需要多个模态联合处理的领域有重要的价值。Meta-Transformer 最重要的意义在于，让人们看到了通用感知智能的曙光。一方面，Meta-Transformer 通过统一的编码方式，能够以同一套参数处理多达 12 种模态，有效地说明了深度神经网络在感知方面具备通向类人智能的潜力。

另一方面，Meta-Transformer 摆脱了目前多模态学习领域中，不再依赖于内容相关的配对数据的问题，这让模型训练更加灵活及泛化，能够最大程度地发挥出多模态、多数据训练的潜力。

图丨相关论文（来源：arXiv）

不久前，相关论文以《元转换器：多模态学习的统一框架》（Meta-Transformer: A Unified Framework for Multimodal Learning）为题发表在 arXiv[1]。论文第一作者为香港中文大学博士研究生张懿元、龚凯雄，合著者包括香港中文大学李鸿升教授与上海人工智能实验室的欧阳万里教授和乔宇教授，共同通讯作者为香港中文大学岳翔宇教授和上海人工智能实验室张凯鹏研究员。

岳翔宇表示，人脑倾向于接受多种信息来源来提高感知或决策的准确率，不同信息来源对应数据里的多种模态。Meta-Transformer 促进了深度网络的多模态感知，也使得神经网络的处理流程离人脑处理多信息源的流程更近一步。

图丨多模态学习统一框架 Meta-Transformer（来源：arXiv）

人工智能承载着未来或成为新一代的社会基础设施的期望，这就暗含着而一个前提，即人工智能需要变得足够通用，来服务全社会的各行各业。

该团队通过实验验证，发现 Meta-Transformer 作为基础模型能够支持一系列的下游应用。张凯鹏举例说道，例如天气预测、卫星遥感、自动驾驶、智慧医疗、3D 识别等，它可以处理自然语言、图像、点云、音频、视频、红外、超光谱、X 射线、时间序列、表格、图形数据等多种模态的数据，以及语音视频识别等，并在更多的领域服务于社会。具体如下：

语音、视频、图像、温度——智能家居：Meta-Transformer 可用于智能家居设备，如智能音箱、智能电视等，提供更加个性化和智能化的服务。例如，它可以理解和预测用户的需求，自动调整家庭环境，如温度、照明等。

时间序列数据——智能城市：在智能城市的建设中，Meta-Transformer 可在分析城市数据方面应用，例如交通流量、能源消耗以及自动驾驶技术，优化城市运营和提高城市生活质量。

卫星遥感、图像——农业：在农业领域，Meta-Transformer 可用于预测作物产量、分析土壤质量或者帮助农民做出种植决策。

表格数据、图像——制造业：在制造业中，Meta-Transformer 可以用于优化生产流程，预测设备故障，或者帮助设计更有效的产品。

图丨元转换器由数据到序列的标记化、统一的特征编码和下游任务学习组成。该框架用文本、图像、点云和音频进行了说明（来源：arXiv）

张懿元在研究初期确定博士阶段研究规划时，就与岳翔宇讨论模态通用智能对于当前人工智能领域发展的重要性。他们一致认为，未来的强人工智能一定会是多模态人工智能。但是，目前对于多模态学习算法，仍依赖于多个模态专家网络的在内容相匹配多模态数据来构建。

“我之前的研究是关于图像-文本之间的表征学习，当时也发现图像和文本的专家模型也可以共享一部分的参数。于是，我觉得可能会存在一套神经网络的参数能够同时处理三个模态的信息，比如文本、图片以及 3D 点云。”张懿元说。

经过 1 个多月的实验验证，研究团队发现该结论完全成立。在这个积极的进展的基础上，他们猜想，可能会有一套神经网络的参数能够同时编码更多的模态。于是，研究人员陆续在语音、视频、红外、医用 X 射线以及卫星遥感的高光谱数据方面进行尝试，皆获得了积极的实验进展。

除了这些传统的感知任务，研究团队还意识到，时间序列、离散图、表格、与惯性测量单元的数据在机器人、智能预测与数据挖掘领域是非常重要的模态。于是，接着在这四个模态上进行了实验。

“每新增一个模态，对我们来说都是在探索新的未知领域与新的方法。正是在不断的探索未知与实验验证后，我们也逐渐看到了通用感知智能的曙光正在前方。”龚凯雄说。

据介绍，在发现图片、文本、点云这三个模态可以通过同一套参数进行编码，且语音与视频两个模态能够直接被 Meta-Transformer 兼容到现有框架的那天，张懿元激动得晚上难以入睡。他说：“我当时意识到，Meta-Transformer 可能真的能做到统一的多模态感知。”

图丨与现有工作相比，Meta-Transformer 可以利用统一的模态共享编码器来处理更多的模态，并摆脱了多模态训练过程中对于配对数据的依赖（来源：arXiv）

张凯鹏认为，通用人工智能是 AI 研究的重要追求之一，也就是说，用 AI 模型高水平地完成人类能完成或较难完成的任务。

研究团队计划将 Meta-Transformer 拓展成多模态感知的基线模型，有望使其更好地服务各下游模态、推理的框架，并在数据有效性、计算有效性、模型性能等方面发挥重要作用。并且，通过开源社区的力量丰富 Meta-Transformer 的应用场景，也可能用其辅助解决一些目前极具挑战的 AI 任务，如具身智能和自动驾驶。

“我们希望可以将 Meta-Transformer 的多模态感知能力与现有的大语言模型相结合，来扩展大语言模型的用途以及感知能力。用开玩笑的说法，希望它能够影响到 GPT-5 甚至 GPT-6 的设计。”张懿元说。

据悉，下一步，该团队计划探索 Meta-Transformer 这种统一的多模态感知的产品化方案。