首页科技快讯微软 AI CEO 穆斯塔法：小模型绝对是未来趋势，AI 会小到能装在冰箱贴上

微软 AI CEO 穆斯塔法：小模型绝对是未来趋势，AI 会小到能装在冰箱贴上

来源：晰数塔互联网快讯时间：2024年11月04日 18:30

来源：AI科技大本营

“AI 的「幻觉」不是 Bug，而是创造力的体现。”

译 | Eric Harrington

上周，我们整理了微软创始人比尔·盖茨在一场播客中的最新访谈，他大谈特谈 AI 与未来科技的发展，判断“软件市场的格局会被 AI 重塑，未来需要的应用数量会远少于现在”。

近日，DeepMind 联合创始人、微软 AI CEO 穆斯塔法·苏莱曼（Mustafa Suleyman）在 Masters of Scale Summit 峰会上也聊了聊自己对 AI 的最新见解，和他对话的则是 LinkedIn 创始人、美国企业家、风险投资家与作家里德·霍夫曼（Reid Hoffman）。两人是老相识，曾在两年前和另一位 AI 大咖 DeepMind 资深科学家 Karén Simonyan 共同创始了 AI 应用公司 Inflection，并在去年发布了 AI 助手产品 Pi。

两人共同讨论了人工智能的风险与回报，对话中金句不断，观点频出：

重新定义幻觉：“所以说，「幻觉」这个词其实用得不太恰当。这不是缺陷，在我看来，这恰恰是 AI 的优势所在。”

需要警惕的关键能力：“目前，这些模型几乎没有真正的自我改进能力，也就是说，没有一个不需要人类直接监督的自我进化闭环。”

突破预测：“我非常有信心，到 2025 年，永久记忆这个问题就能解决。想想看，我们在网络上其实已经有了某种形式的记忆系统。”

谈及模型发展趋势：“模型正在同时向着更大和更小两个方向发展，这种趋势几乎肯定会持续下去……我认为接下来会发生的是，我们会把知识压缩到更小更经济的模型中，小到可以装在冰箱磁贴上。”

历史性的机遇窗口：“到 2050 年，机会的列车就要开走了。到那时一切都会变得很不一样。这是我们真正有机会集体塑造和影响未来的时刻。”

以下是这次对话的主要内容，经 CSDN 精编处理。

里德·霍夫曼：让我们从一些小问题开始。你和其他人经常把 AI 比作一个“新物种”。我很好奇，你觉得用这个角度来理解 AI 合适吗？这种类比在哪些方面有启发性？又在哪些方面可能会让人产生误解？最重要的是，这种思维方式能如何帮助我们思考 AI 的发展方向？

穆斯塔法·苏莱曼：每当我们遇到一个完全创新的事物时，它总是与我们之前经历过的一切都不一样。每一波技术革新都给人这种感觉。想想看，当人类第一次用上电力时，或者第一次通过越洋电话与大西洋彼岸的人交谈时，那种体验一定让人觉得不可思议，仿佛置身魔法世界。这些突破为人们开启了一个全新的认知维度，彻底改变了我们对“可能性”的理解。所以，每当这种情况发生时，我们都会本能地寻找一些已知的参照物，试图通过类比来理解这个新事物。

虽然这个新事物最终可能与我们用来类比的参照物大不相同，但在它真正到来之前，这是我们能找到的最好的思考方式。我之所以提出“新兴的数字物种”（new digital species）这个比喻，是因为在深入观察这些 AI 系统的能力后，发现这确实是再恰当不过的描述。尽管这种比喻可能会引发一些我们不希望看到的联想，但我认为它很好地帮我们框定了一个核心问题：如何约束这种新兴的数字物种。想想看，这些模型未来将能够看到你所看到的，听到你所听到的，实时理解和处理文本信息，甚至代表你采取行动。这些能力现在正在逐步实现。

我认为“物种”（species）是目前对 AI 最恰当的比喻，是我们能找到的最接近的参照系。这个比喻不仅帮助我们理解 AI 的潜力，也为我们思考应该避免 AI 发展成什么样子提供了一个很好的框架。

里德·霍夫曼：你认为在引导这种“新物种”发展的过程中，我们最应该做的是什么？最应该避免的又是什么？——顺便提一下，我强烈推荐大家读读穆斯塔法的新书《浪潮将至》*，书中对这个话题有更深入的探讨。我们现在讨论的只是 60 秒精华版。

* 欢迎阅读我们整理的《浪潮将至：技术、权力与未来的冲击》书摘：我们是否该给技术按下暂停键？

穆斯塔法·苏莱曼：这些 AI 模型最令人着迷的地方在于，它们给出的答案并不仅仅是你输入内容的简单重组。这正是软件发展的终极目标。我们希望它能告诉我们一些我们原本不知道的东西。所以说，“幻觉”这个词其实用得不太恰当，这不是缺陷，在我看来，这恰恰是它的优势所在。

里德·霍夫曼：这应该叫创造力。

穆斯塔法·苏莱曼：对，就是创造力。我们希望在给定某个输入的情况下，能得到各种各样新颖的回应。这种灵活性和不确定性正是我们想要的。现在这些模型能够自主学习对事物的理解，而不是靠我们手工设计特征，这正是过去 15 年机器学习努力的方向，看到这一目标实现真是太棒了。但关键问题是，我们需要搞清楚这种学习的边界在哪里。目前，这些模型几乎没有真正的自我改进能力，也就是说，没有一个不需要人类直接监督的自我进化闭环。不过我们预计这种情况在 2025 年就会出现。研究团队会开始进行这方面的实验。这是我们需要特别谨慎对待的一个方向。

另一个值得关注的问题是 AI 的自主性。显然，如果这些模型能够在任意数字环境中自由活动，比如自主启动虚拟机、操作网页、调用 API 接口，完全不受人类监督和控制地做这些事情，风险就会大大增加。这两种能力是我们比较担心的。

说到积极的一面，我认为这些 AI 系统将展现出惊人的创造力，而且能帮助我们展现最好的一面。你要知道，如果设计得当，它们不需要像人类那样容易刻薄、带有偏见或让人感到羞愧。我们知道人类有时候会很讨厌，对吧？但 AI 没有理由变得刻薄。当然，可能会有人专门把 AI 助手设计成具有这些特质，但这不是必然的结果，这完全是设计者的选择。

从系统层面来说，我们应该尽一切努力在整个生态系统中，通过规范和价值观来限制这类行为。虽然可能还是会有人这么做，但我相信 AI 有巨大的潜力帮助我们成为更好的自己。举个例子，我三周前读到一篇研究报告，讲述了一群深信阴谋论的人——我说的是那种相信“地平说”级别的阴谋论的人——

里德·霍夫曼：这种人现在突然变多了。

穆斯塔法·苏莱曼：——我想我们都同意“地平说”确实很荒谬。总之，研究发现，这些阴谋论者在与聊天机器人持续交流大约六周后，他们相信“地平说”的倾向明显降低了。这是为什么呢？因为聊天机器人表现出了难得的耐心，从不带有评判性，不会贬低对方，而且始终如一，永远愿意倾听和回应，最重要的是，它会基于可靠的科学文献和证据来展开讨论。这些迹象让我对 AI 的积极影响充满信心，它的潜力确实令人振奋。

里德·霍夫曼：实际上，让我跳到一个我本打算稍后问你的问题，我觉得现在是个很好的时机。当你、Karén Simonyan 和我一起创立 Inflection 时，我们的一个核心理念是“情商与智商同等重要”。能否跟读者也分享一下，这个理念对 Pi 意味着什么？这种思维方式为什么重要？它的影响不仅仅局限于 Pi，对吧？

Inflection 的 AI 个人助手应用 Pi

穆斯塔法·苏莱曼：没错，这个问题很关键。谈及智商，我们通常指的是回答的准确性、速度、全面性、相关性，以及实时获取信息的能力。在这些方面，我们确实在稳步进步。但我注意到，AI 研究界的人们往往忽视了一个重要维度：信息传递的方式。这种忽视源于一种典型的技术人思维：“只要我把事实摆出来，人们自然就会明白这是对的。”

里德·霍夫曼：对，典型的工程师思维。

穆斯塔法·苏莱曼：就是这样。事实证明，语气、风格、情商水平、互动方式、是否能用用户熟悉的语言表达，这些看似表面的东西，对大多数普通用户来说可能比单纯复述维基百科的内容更重要。

所以我认为这将成为一个关键能力。现在每个人都开始意识到，未来的 AI Agents（AI 智能体）不仅仅是完成任务那么简单。人们清楚地看到，个性化表达同样重要。我对如何塑造 AI 的个性特别感兴趣，因为我认为这正是用户最看重的，或者说我能看到用户最看重的特质。

里德·霍夫曼：说到 AI Agents 的未来，能给我们描绘一下你的愿景吗？从协作助手的角度来看，你觉得在未来两到五年内，AI Agents 会在我们的生活中扮演什么角色？从宏观的“数字物种”层面到具体应用层面，你认为有哪些关键点？我们又该如何与它们友好互动？

穆斯塔法·苏莱曼：要实现真正的 AI Agents，第一步是让你的协作助手能够“看见”你眼中的一切。想象一下，当你的 AI 伴侣能够真实地感知你在屏幕上、浏览器中、桌面上、手机上看到的所有内容时，它就能持续地感知你的视觉输入，实现与你的深度共情。这样，你就可以用很自然的方式与它交流，比如说“还记得我刚才看到的那个东西吗？”或者“刚刚跳过的那些内容在哪里来着？”

这种理解层次是我们以前从未拥有过的。它让 AI 能够真正替你行动——在浏览器中导航、调用各种 API、预订服务、购物和规划等。目前，我们已经看到了很多相关的精彩演示。但坦白说，要让这些功能在实际生产环境中稳定运行，我们还有一段路要走。从之前的技术浪潮我们就能看出这一点，就像在 GPT-3 之前，各大公司内部就有了一些语言模型。那大概是在 2020 年、2021 年间，但那时的模型还很不稳定。

我觉得这可能就是我们如今在“逆境商数”（Adversity Quotient，简称AQ）方面所处的阶段。目前能让这些功能在 50% 到 60% 的情况下正常工作已经很了不起了，但我们的目标是要达到 99% 的准确率。这让我想到了语音识别和听写功能的发展历程——那是一个持续了 15 到 20 年的过程。只是在最近两三年，它才突破了临界点，达到了大约 99.5% 的准确率，而且还实现了个性化。正因如此，你开始看到越来越多的人优先使用语音交互，这既是因为输入方便，也因为生成能力提升了。所以，我认为 AI Agents 要达到类似的水平还需要几年的时间。

里德·霍夫曼：你觉得语音输入会在什么时候迎来拐点？实际上，正如我们经常讨论的，生成式 AI 的革命让对话式交互成为可能，让语音输入变得更加自然，因为你可以直接说话，而它能真正理解你的意思。这种突破会如何进一步推动 AI Agents 的发展呢？

穆斯塔法·苏莱曼：从本质上说，界面的形式决定了输入的方式。回想一下，因为搜索引擎只是一个简单的搜索框，我们不得不学着说“搜索语言”，对吧？我们通常会把想法压缩成三四五个关键词，甚至连完整的句子都不是。

里德·霍夫曼：实际上，搜索引擎用户平均每次搜索时使用的词数是 1.6 个词。

此处指的是我们自然而然形成的搜索习惯：只输入关键词，而不是完整的句子

穆斯塔法·苏莱曼：对，平均 1.6 个词。有趣的是，语音交互释放了我们与计算机互动时的另一面——你可以用完整的句子交谈，可以即时纠正自己，可以前后补充，还可以加入我们日常对话中的各种细节。而且模型会用完整的段落回应你。突然间，你开始谈论和询问一些你以前从未想过要数字化的内容。我认为这很好地展示了未来行动层面可能发生的变化。因为当你有了这样一个随时待命的 AI 伴侣，它能完成任何你能在电脑上做的数字任务，你就会让它做很多你现在不会自己动手做的事情。这是一个重大转变，因为完成任务的门槛即将大幅降低。这不仅是因为边际成本接近于零，更因为操作的阻力真的减少了。因此，你会想到很多以前因为太麻烦而不愿意去做的事情。

里德·霍夫曼：你觉得这种交互方式会如何提升我们的创造力？与这些 AI Agents 互动会给我们带来什么样的创意启发？

穆斯塔法·苏莱曼：想想看，我们每天会冒出多少随机的想法、灵感或疑问。如果你真正静下心来观察你的潜意识，会发现有很多“如果......”、“要是......”的瞬间，这些想法往往还没形成明确的语言就消失了。为什么？因为我们身边并不总是有人可以倾听这些突如其来的想法。除了你自己。而且，老实说，每次都掏出手机打字记录实在太麻烦了。即使是我这种经常使用搜索的人，一天可能也就搜索五到八次。这需要不少努力。

如果获取这些想法的门槛降低了，那么你能够在 AI 伴侣帮助下实现的创意想法自然会大大增加。更重要的是，它还有记忆力——这是另一个即将在行动能力之前实现的重大突破。我非常有信心，到 2025 年，永久记忆这个问题就能解决。想想看，我们在网络上其实已经有了某种形式的记忆系统。我们现在已经能相当准确地从网络上检索信息。比如 Copilot 就能提供很好的引用，它能知道 15 分钟前发生的新闻等等。

所以我们只是在把这个过程压缩，应用到个人知识图谱上。然后你就可以添加自己的文档、邮件和日历等内容。记忆能力将彻底改变这些交互体验。想想看，当你进行一次深入的对话或围绕某个创意展开有趣的探索，然后过了三四次对话再回来，却发现要重新开始，这是多么令人沮丧。因为它完全忘记了我们之前讨论过的内容。这个突破将带来巨大的改变，因为它不仅降低了你表达创意的门槛，而且这些想法不会被遗忘。你可以模糊地引用之前的内容：“三周前我说的那个想法是什么来着？”“对了，那个想法和我们之前讨论的主题有什么联系？”

里德·霍夫曼：更像是一场持续的对话。

穆斯塔法·苏莱曼：没错。这就像有了第二个大脑，是你思维的延伸。这也是为什么培养 AI 的情商会如此重要。

里德·霍夫曼：完全同意。让我们来谈谈更具体的技术层面，特别是关于模型的发展。因为有很多企业家都在思考这个领域在未来几年会如何演变，以及需要关注哪些关键点。

穆斯塔法·苏莱曼：好消息是，模型正在同时向着更大和更小两个方向发展，这种趋势几乎肯定会持续下去。在过去一年里，一种被称为“蒸馏”的新方法开始流行起来。简单说，就是用大型的、非常智能的、推理成本高的模型来教导小模型，这些小模型可以通过 AI 反馈进行强化学习，这种监督方式已经证明相当有效。但规模仍然是游戏的重要组成部分。我们还有很大的发展空间，数据也会越来越丰富，所以我认为至少在未来两到三年内，大规模模型带来的性能优势不会减弱。我们还在不断增加新的模态，当然包括视频和图像等。

但我们真正感兴趣的难点是在复杂的数字界面上追踪用户行为轨迹。比如从浏览器跳转到桌面，然后切换到手机，在不同的生态系统之间穿梭，无论是在封闭的环境还是开放的网络中。我们正在努力理解这些行为轨迹，收集大量相关数据，使用监督式微调等技术。我相信这会带来很多令人惊喜的突破。

里德·霍夫曼：显然还有另一个广受关注的话题就是数据。关于可以使用什么样的数据、数据质量如何，网上已经有很多讨论了。但我认为人们思考得不够多的是新数据将从何而来。比如说，合成数据就很有意思——我们发现如果能获得某些特定类型的数据，就能训练出更好的大小模型。那么，我们如何获取这些数据？如何确保它们能够被有效整合？企业家们应该如何思考这个问题？

穆斯塔法·苏莱曼：让我们先想清楚什么是提示词（prompt），它不仅仅是你问的问题。我觉得这个概念经常被混淆。当你问聊天机器人一个问题时，那就只是个问题，而不是提示词。当你编写一份包含多个示例的三页风格指南，用以指导模型行为时，实际上是基于这份指南来调整模型的输出。从这个角度来说，提示词本质上就是你的数据——它们是一系列高质量的指令，能够引导预训练模型按照特定的方式行动。

令人惊讶的是，模型只需要几页指令就能表现出与另一个用完全不同方式提示的模型截然不同的行为。这本身就很神奇。但往更深一层想，如果你希望模型能够以精确和细致的方式表现，真正符合你的企业品牌价值观或产品特色，你需要展示成千上万个优秀行为的例子，通过微调将它们融入模型，这是预训练过程的延续，目标是某些你确定准确的高质量数据。好消息是，对于很多细分领域或特定垂直市场来说，收集几万个例子并不难。这就是一个机会，我认为在对预训练模型进行高质量微调方面，创业公司有很大的发展空间。这样你就能获得更稳定的、真正符合你期望的行为模式。

里德·霍夫曼：创业者应该如何思考小型模型的应用和部署？显然，他们会使用微软、OpenAI 和谷歌等公司的前沿大模型，因为那些都是投入数十亿美元的项目。但对于小型模型，创业者应该如何发掘机会？如何用它们做出有趣和独特的事情？

穆斯塔法·苏莱曼：小型化绝对是未来的方向，因为想想看，当你向一个真正的前沿大模型提问时，它会激活数十亿个与当前问题无关的神经网络连接。说起来很疯狂，它能在生成每个词时高效地搜索或引用数亿个节点。

但实际上它并不需要这样做。如果你有一个具体的应用场景，我认为接下来会发生的是，我们会把知识压缩到更小更经济的模型中，小到可以装在冰箱磁贴上。

里德·霍夫曼：“冰箱磁贴”这个比喻我还是第一次听你用。

穆斯塔法·苏莱曼：对吧？这是我能想到的最小的数字设备了。

里德·霍夫曼：我甚至不确定它算是数字设备。

穆斯塔法·苏莱曼：噢对，说得对。不过想象一下，冰箱磁贴能在早上跟你打招呼，和你聊天，多么有趣。或者换个形态——它可能在耳机里，在可穿戴设备上，在耳环上，或者在带传感器的花盆里……所以，我认为环境感知革命即将到来。这个承诺已经存在很久了。但这就是压缩技术的发展方向。它会发展到极致，你能拥有真正实用的 AI——当然，冰箱上的 AI 不需要懂量子计算，但它知道怎么在早上欢迎你、告诉你天气、提醒你冰箱里有什么、提醒你日程安排，这就足够了。我估计这样的 AI 可能只需要几千万个参数就够了。人们还没有真正开始探索这个方向，但这完全在任何两人团队的能力范围之内。

里德·霍夫曼：是的，这正是重点，也是一个创业的关键点。让我转到我们最后一个问题的延伸版本：在接下来的日子里，大家应该思考什么问题？我先抛砖引玉，给你一点思考的时间。

对我来说，核心问题是：作为技术从业者，我们需要融入哪些元素来设计一个更具人性的未来？通常当人们谈到“更具人性”时，他们会想到传统意义上的人性——人类在过去几千年里是什么样子。这当然很重要，但向前看同样重要。因为随着技术的发展，我们的人性也在发展。我们通过这些技术发展人性，通过杯子、舞台、播客设备发展人性。

所有这些都在重塑着我们作为人类的本质。所以这不仅仅是要记住我们有情感和激情——是的，当然有。我们有同理心——但关键是，这些人性特质如何在我们的技术中得到新的表达？这就是我想提出的一个值得深思的问题。

穆斯塔法·苏莱曼：我想说的是：问问自己，你准备好全力以赴了吗？因为这确实是一个历史性的转折点。看看过去五十年的重大技术变革，每一次都彻底重塑了事物的结构。我认为现在正是创办公司、扩展业务的最佳时机。即使你不是企业家，无论你是活动家还是组织者，这都是转换职业的好时机——哪怕你是学者，这都是一个真正需要全神贯注的时刻。因为到 2050 年，机会的列车就要开走了。到那时一切都会变得很不一样。这是我们真正有机会集体塑造和影响未来的时刻。没有什么是预先注定的。确实在我们的能力范围内，可以为人类的最大利益来塑造这个未来。我们很幸运能活在这个时代。这种感觉令人难以置信地振奋人心，同时也意味着每个人身上都有着重大的责任。

参考链接：https://www.youtube.com/watch?v=IZBT57oLKas