首页科技快讯过去一个月，AI的进化是突破性的

过去一个月，AI的进化是突破性的

来源：晰数塔互联网快讯时间：2024年12月24日 12:24

过去一个月，AI在多个领域出现了巨大的飞跃。

宾夕法尼亚大学沃顿商学院教授Ethan Mollick在近日一篇文章中，总结了他所观察到的人工智能最新进展，以及这些进展的含义。Mollick的专业是研究创业与创新以及人工智能，并致力于探索人工智能对工作和教育的意义。

Mollick观察到，人工智能在近一个月发生了突破性的进展：

（1）在以GPT-4为代表的人工智能已经无处不在的情况下，更聪明的人工智能正在出现，尤其是Gen3和o1模型的发布；

（2）随着视觉功能的引入，ChatGPT 和 Gemini 现在都可以同时观看实时视频和语音交互。能够通过最常见的人类感官（视觉和声音）与人类实时互动的模型将 AI 变成与您同在房间里的陪伴者，而不是被困在计算机上聊天框中的实体；

（3）AI 视频突然变得非常好，但真正的飞跃来自上周出现的人工智能文本转视频生成器。

Mollick表示，我们还远远没有看到人工智能进步的终结，引人注目的不仅仅是个别的突破，而是变革的速度和广度。人工智能正以不均匀的速度大幅跨越，甚至超出了人类能轻松衡量其影响的能力。

以下为Mollick文章的全文翻译：

上个月，人工智能的状况发生了变化，仅在上周，变化速度就急剧加快。人工智能实验室推出了大量新产品，有些是革命性的，有些是渐进式的，让人难以跟上。我相信，这些变化中有几个是真正的突破，将重塑人工智能（也许还有我们的）的未来。以下是我们的现状：

智能人工智能如今无处不在

去年年底，只有一个公开可用的 GPT-4/ Gen2类模型，那就是 GPT-4。现在有六到十个这样的模型，其中一些是开源的，这意味着任何人都可以免费使用或修改它们。

来自美国的有 OpenAI 的 GPT-4o、Anthropic 的 Claude Sonnet 3.5、谷歌的 Gemini 1.5、Meta 的开放 Llama 3.2、埃隆·马斯克的 Grok 2 和亚马逊的新 Nova。

中国公司已经发布了三种似乎具有 GPT-4 级性能的开放多语言模型，尤其是阿里巴巴的 Qwen、R1 的 DeepSeek 和 01.ai 的 Yi。

欧洲在这个领域只有一家参与者，那就是法国的 Mistral。

这一堆令人困惑的名字意味着，构建有能力的人工智能并非 OpenAI 独有的神奇公式，而是任何拥有计算机科学人才以及能够获得训练模型所需芯片和算力的公司都能够做到。

事实上，GPT-4 级别的人工智能在发布时令人震惊，引发了人们对未来的极大担忧，而现在它可以在我的家用电脑上运行了。Meta 本月发布的最新小型型号名为Llama 3.3 ，它提供了类似的性能，并且可以在我的游戏电脑上完全离线运行。微软新推出的微型Phi 4是 GPT-4 级别的，几乎可以在手机上运行，而其性能稍差的前代产品 Phi 3.5 更是可以。某种程度上的智能是按需提供的。

我家用电脑上运行的 Llama 3.3 通过了“涉及奶酪双关语的押韵诗”基准测试，只有几个不自然的双关语。

而且，正如我所讨论过的（很快会再次发布），这些无处不在的人工智能现在开始为代理提供动力，这些代理是可以追求自己目标的自主人工智能。你可以在我之前的文章中看到这意味着什么，我使用早期的代理进行购物比较和监控建筑工地。

非常聪明的人工智能现在已经出现

所有这些意味着，如果 GPT-4 级别的性能是 AI 可以达到的最高水平，那么随着我们逐渐习惯它们的能力，这可能足以让我们经历五到十年的持续变化。但没有迹象表明 AI 发展即将大幅放缓。

我们之所以知道这一点，是因为上个月还有另外两个重要的发布——Gen3 模型的首次发布（你可以将它们视为 GPT-5 类模型）和 o1 模型的发布，这些模型可以在回答之前“思考”，这实际上使它们比其他 LLM 的推理能力强得多。我们正处于 Gen3 发布的早期阶段，所以我不会在这篇文章中过多地介绍它们，但我确实想谈谈 o1。

当 o1 以早期的 o1-preview 形式发布时，我曾讨论过它，但两个更复杂的版本 o1 和 o1-pro 的功能显著增强。这些模型在回答问题之前会花时间进行隐形“思考”——模仿人类的逻辑问题解决方式。这种方法称为测试时间计算，事实证明，它是让模型更好地解决问题的关键。事实上，这些模型现在已经足够聪明，能够以大大小小的方式为研究做出有意义的贡献。

举一个有趣的例子，我读到一篇关于最近社交媒体恐慌的文章——一篇学术论文指出，黑色塑料餐具可能会毒害人类，因为它们部分是由回收的电子垃圾制成的。该论文指出，一种名为 BDE-209 的化合物从这些餐具中渗出的速率非常高，接近美国环保署设定的安全剂量水平。很多人都扔掉了他们的锅铲，但麦吉尔大学的 Joe Schwarcz 认为这没有道理，并发现了一个数学错误，作者在文章的第七页错误地将 BDE-209 的剂量乘以了 10 倍——这个错误被论文作者和同行评审员忽略了。

我很好奇 o1 是否能发现这个错误。因此，我从手机上粘贴了PDF 文本并输入：“仔细检查本文中的数学计算”。就这样。o1 立即发现了错误（其他 AI 模型没有）。

当模型不仅能够处理整篇学术论文，还能理解“检查数学”的意义所在，然后成功检查结果时，人工智能的能力就会发生根本性的变化。事实上，我的实验以及其他人的实验都激发了人们去研究 o1 能在科学文献中发现错误的频率。我们不知道 o1 能多频繁地完成这种壮举，但找出答案似乎很重要，因为它指向了能力的新前沿。

事实上，即使是 o1 的早期版本，即预览模型，似乎也代表了科学能力的飞跃。哈佛大学、斯坦福大学和其他研究人员发表了一篇令人震惊的医学工作论文，结论是“o1-preview 在鉴别诊断、临床推理和管理推理方面表现出超人的表现，在多个领域都优于前几代模型和人类医生。”这篇论文还没有经过同行评审，它并没有表明人工智能可以取代医生，但它和上面的结果确实表明，这个世界正在发生变化，不把人工智能作为第二意见可能很快就会成为一个错误。

可能更重要的是，越来越多的研究人员告诉我，o1，尤其是 o1-pro，正在产生新颖的想法并解决他们领域中意想不到的问题。问题是，现在只有专家才能评估人工智能是错还是对。

例如，我非常聪明的沃顿商学院同事Daniel Rock让我给 o1-pro 一个挑战：“让它使用文献中没有的证明来证明神经网络的通用函数逼近定理，而无需假设无限宽的层和超过 2 层。” 以下是它回复的内容：

这是对的吗？我不知道。这超出了我的专业领域。丹尼尔和其他看过它的专家乍一看也无法判断它是否正确，但觉得它足够有趣，值得研究。

事实证明，这个证明是有错误的（尽管与 o1-pro 进行更多交互可能会修复这些错误）。但结果仍然引入了一些激发进一步思考的新方法。正如丹尼尔向我指出的那样，当研究人员使用 o1 时，它不需要正确才能有用：“要求 o1 以创造性的方式完成证明实际上是要求它成为研究同事。该模型不必证明正确才有用，它只需帮助我们成为更好的研究人员。”

我们现在拥有的人工智能似乎能够解决非常困难的博士级问题，或者至少可以作为研究人员的协同智能有效地解决这些问题。当然，问题是，除非你自己是某个领域的博士，否则你实际上并不知道这些答案是否正确，这为人工智能评估带来了一系列新挑战。需要进一步测试才能了解它有多大用处，以及在哪些领域有用，但人工智能能力的这一新前沿值得关注。

人工智能可以观察你并和你交谈

几个月来，我们一直使用 AI 语音模型，但上周我们又引入了一项新功能——视觉。ChatGPT 和 Gemini 现在都可以同时观看实时视频和语音交互。例如，我现在可以与 Gemini 的新款小型 Gen3 模型 Gemini 2.0 Flash 共享实时屏幕。

或者更好的是，您可以免费试用。说真的，体验一下这个系统能做什么是值得的。Gemini 2.0 Flash 仍然是一个内存有限的小型模型，但您开始明白这一点了。能够通过最常见的人类感官（视觉和声音）与人类实时互动的模型将 AI 变成与您同在房间里的陪伴者，而不是被困在计算机上聊天框中的实体。ChatGPT 高级语音模式可以通过手机执行相同的操作，这意味着数百万用户都可以广泛使用此功能。随着 AI 在我们生活中变得越来越普遍，其影响将非常深远。

AI 视频突然变得非常好

在过去的一年里，人工智能图像创建技术取得了令人印象深刻的进展，在我的笔记本电脑上运行的模型可以生成与真实照片难以区分的图像。它们也变得更容易操控，可以对“使用蓝牙的飞机上的水獭”和“使用 wifi 的飞机上的水獭”等提示做出适当的反应。如果你想自己尝试一下，谷歌的 ImageFX是一个非常简单的界面，可以使用上周发布的强大的 Imagen 3 模型。

但上周真正的飞跃来自人工智能文本转视频生成器。此前，中国公司的人工智能模型通常代表着视频生成领域的最新水平，包括令人印象深刻的系统如Kling ，以及一些开源模型。但情况正在迅速改变。首先，OpenAI 发布了其强大的 Sora 工具，然后谷歌发布了功能更强大的 Veo 2 视频创建器，这已成为最近的一个主题。如果您订阅 ChatGPT Plus，您现在就可以使用Sora ，这是值得一试的，但我提前获得了 Veo 2 的使用权（据说将在一两个月后推出），它……令人惊叹。

展示总是比讲述更好，所以请看一下这个 8 秒剪辑的合集（目前的极限，尽管它显然可以制作更长的电影）。我在每个剪辑中都提供了确切的提示，并且剪辑仅从 Veo 2 制作的第一组电影中选择（它一次创建四个剪辑），因此没有从许多示例中挑选。注意物体、阴影和反射的明显重量和重量，在保持发型和细节的情况下跨场景的一致性，以及场景与我要求的接近程度（如果你寻找的话，红色气球就在那里）。有错误，但现在乍一看很难发现它们（尽管它仍然在努力处理体操，这对视频模型来说非常困难）。真的令人印象深刻。

这一切意味着什么？

我将在以后的文章中详细阐述我的看法，但从中可以吸取的教训是，无论好坏，我们都还远远没有看到人工智能进步的终结。引人注目的不仅仅是个别的突破——人工智能检查数学试卷、生成接近电影质量的视频片段或在游戏电脑上运行。而是变革的速度和广度。

一年前，GPT-4 感觉像是未来的一瞥。而现在，它基本上已经在手机上运行，而新模型正在捕捉学术同行评审中漏掉的错误。这不是稳步的进步——我们看到人工智能以不均匀的速度大幅跨越，超出了我们轻松衡量其影响的能力。这表明，当形势处于动态变化中时，塑造这些技术如何改变你的领域的机会现在就存在，而不是在转型完成后。

本文来自：华尔街见闻，作者：硬AI