首页科技快讯 o3意味着什么？2025年“缩放定律”继续，成本更贵也更不可控

o3意味着什么？2025年“缩放定律”继续，成本更贵也更不可控

来源：晰数塔互联网快讯时间：2024年12月25日 08:02

AI扩展法则进入第二代，当然，成本也是如此。

近期，AI发展似乎进入了“第二个扩展法则时代（Second era of Scaling Laws）”，一些分析师指出，改进AI模型的既定方法正在呈现出收益递减的趋势，目前，一种新的、有前景的方法是“测试时扩展（ test-time scaling）”，这是OpenAI的o3模型采用的方法，也是o3表现如此出众的原因。

需要注意的是，尽管o3模型让人们重新相信AI扩展法则的进展，但也并非十全十美：o3使用了前所未见的计算量，这意味着每个答案的成本更高了，也意味着o3无法成为人们的日常使用工具。

具体来说，“测试时扩展”意味着OpenAI在ChatGPT的推理阶段使用了更多的计算资源——在用户按下生成按钮后到AI给出答案之间的那段时间，OpenAI可能是在使用更多的计算芯片来回答用户的问题，也可能是在使用更强大的推理芯片，甚至可能是更长时间地运行这些芯片，毕竟，在某些情况下，o3在10到15分钟后才给出答案。

此外，Anthropic联合创始人Jack Clark和另一些分析师指出，o3在ARC-AGI基准测试中的出色表现标志着AI模型的进步，但是，通过这一测试并不意味着AI模型已经达到了通用人工智能（AGI），毕竟，o3在一些非常简单的任务上仍然失败了，而这些任务人类可以轻松完成——显然，o3和“测试时扩展”仍未解决大语言模型的幻觉问题。

一、AI在2025年的进步将比2024年更快，o3就是证据

Clark在周一的博客中表示，o3模型表明，基于目前已有强大基础模型，在推理时让大语言模型“测试时扩展”，能够带来巨大的回报。Clark预计，接下来最有可能发生的事情是，强化学习（RL）和底层基础模型将同时得到扩展，这将带来更加戏剧性的性能提升。

“这是一个大新闻，因为它表明，相较于2024年，2025年AI的进展应该会进一步加速。”

Clark补充表示，最近有很多奇怪的报道，说“扩展已经遇到瓶颈”，对此，Clark反驳称：

“从狭义上讲，这是对的，因为较大的模型在应对挑战性基准时，获得的得分提升比其前代模型要小，但从更广义上讲，这种说法是错误的，因为o3背后的技术意味着扩展仍在继续……到2025年，我们将看到现有方法（大模型扩展）和新方法（基于RL的“测试时扩展”等）的结合。”

Clark还补充道，明年，AI界将结合“测试时扩展”和传统的预训练扩展方法，进一步挖掘AI模型的潜力。

二、表现出众的o3

许多人将OpenAI发布的o3模型视为AI扩展进程没有“夭折”的证明——o3在基准测试中表现出色，在一项名为ARC-AGI的通用能力测试中，它的得分远远超过所有其他模型，某次尝试中得分甚至达到了88%，而o1的最好表现仅为32%。并且，o3在一项困难的数学测试中达到了25%的得分，没有任何其他AI模型的得分超过2%。

o系列模型的共同创造者Noam Brown在上周五表示，OpenAI在宣布o1模型后的仅仅三个月就发布了o3模型，AI性能的进步速度令人印象深刻：

“我们有充分的理由相信，这一发展轨迹将继续下去。”

三、价格昂贵的o3

尽管o3模型让人们重新相信AI扩展法则的进展，但也并非十全十美：o3使用了前所未见的计算量，这意味着每个答案的成本更高了。

Clark在博客中写道：

“或许唯一需要注意的点是，o3之所以表现得更好，部分原因在于它在推理时的运行成本更高——能够利用“测试时扩展”意味着在某些问题上，你可以通过增加计算资源得到更好的答案。这很有意思，因为它使得运行AI系统的成本变得更加难以预测——之前，你只需通过查看模型本身以及生成某个输出的成本，就能估算出运行生成模型的费用。”

再一次回到这张图，除了o3在纵坐标上获得的极高得分，o3在横坐标上也一骑绝尘——o3的高得分版本在每个任务上使用了超过1000美元的计算资源，而o1在每个任务上仅仅使用了约5美元的计算资源，o1-mini在每个任务上只用了几美分。