首页科技快讯 OpenAI最新产品全曝光，秘密寻找下一个重大突破

OpenAI最新产品全曝光，秘密寻找下一个重大突破

来源：晰数塔互联网快讯时间：2024年11月14日 19:27

今年AI圈的瓜真是一浪接一浪。

最近，关于Scaling Laws“撞墙”的消息在AI圈炸开了锅。图灵奖得主Yann Lecun、Ilya、Anthropic创始人Dario Amodei纷纷展开唇枪舌战。

争论的核心在于，随着模型规模的不断扩大，其性能提升是否会遇到天花板。

正当舆论愈演愈烈之际，OpenAI CEO Sam Altman刚刚在X平台作出回应：

there is no wall没有墙

而在这场辩论的背景下，彭博社则披露了一条引人注目的消息。

OpenAI计划在明年一月份推出一款名为“Operator”的AI Agent（智能体），这个Agent能够使用计算机代替用户执行任务，如编写代码或预订旅行。

在此之前，Anthropic、微软、Google也都被曝出正在布局类似的方向。

对于整个AI行业来说，AI技术的发展从来就不是单一维度的线性过程。当一个方向似乎遇到阻力时，创新往往会在其他维度突破。

Scaling Laws撞墙？下一步该怎么走

Scaling Laws遭遇瓶颈的消息，最先源自外媒The Information上周末的一篇报道。

洋洋洒洒的数千字报道透露了两个关键信息。

好消息是，尽管OpenAI完成了下一代模型Orion训练过程的20%，但Altman表示，Orion在智能和执行任务、回答问题的能力已经与GPT-4不相上下。

坏消息是，据上手体验的OpenAI员工评估，与GPT-3和GPT-4之间的巨大进步相比，Orion提升幅度较小，比如在编程等任务上表现不佳，且运行成本较高。

一句话概括就是，Scaling Laws撞墙了。

要理解Scaling Laws效果不及预期所带来的影响，我们有必要给不太清楚的朋友简单介绍一下Scaling Laws基本概念。

2020年，OpenAI在一篇论文中最早提出Scaling Laws。

这一理论指出，大模型的最终性能主要与计算量、模型参数量和训练数据量三者的大小相关，而与模型的具体结构（层数/深度/宽度）基本无关。

听着有些拗口，说人话就是，大模型的性能会随着模型规模、训练数据量和计算资源的增加而相应提升。

OpenAI的这项研究奠定了后续大模型发展的基础，不仅促成了GPT系列模型的成功，也为训练ChatGPT提供了优化模型设计与训练的关键指导原则。

只是，当我们现在还在畅想着GPT-100时，The Information的爆料表明，仅仅增加模型规模已经不能保证性能的线性提升，且伴随着高昂成本和显著的边际效益递减。

而遭遇困境的并非仅有OpenAI一家。

彭博社援引知情人士的消息称，Google旗下的Gemini 2.0同样未能达到预期目标，与此同时，Anthropic旗下的Claude 3.5 Opus的发布时间也一再推迟。

在争分夺秒的AI行业，没有产品的新消息往往意味着最大的坏消息。

需要明确的是，这里所说的Scaling Laws遇到瓶颈并非意味着大模型发展就此终结，更深层的问题在于高昂成本导致边际效益的严重递减。

Anthropic CEO Dario Amodei曾透露，随着模型变得越来越大，训练成本呈现爆炸式增长，其目前正在开发的AI模型的训练成本就高达10亿美元。

Amodei还指出，未来三年内，AI的训练成本还将飙升到100亿美元甚至1000亿美元。

以GPT系列为例，仅GPT-3的单次训练成本就高达约140万美元，单是GPT-3的训练就消耗了1287兆瓦时的电力。

去年，加州大学河滨分校的研究显示，ChatGPT每与用户交流25-50个问题，就得消耗500毫升的水。

预计到2027年，全球AI的年度清洁淡水需求量可能达到4.2-66亿立方米，相当于4-6个丹麦或半个英国的年度用水总量。

从GPT-2到GPT-3，再到GPT-4，AI所带来的体验提升是跨越式的。正是基于这种显著的进步，各大公司才会不惜重金投入AI领域。

但当这条道路逐渐显露尽头，单纯追求模型规模的扩张已无法保证性能的显著提升，高昂的成本与递减的边际效益便成了不得不面对的现实。

现在，比起一味追求规模，在正确的方向上实现Scaling显得更加重要。

再见，GPT；你好，推理“O”

墙倒众人推，连理论也是如此。

当Scaling Laws疑似触及瓶颈的消息在AI圈内引发轩然大波时，质疑的声浪也随之翻涌而来。

图灵奖得主、Meta AI首席科学家Yann Lecun，昨天兴奋地在X平台转载了路透社采访Ilya Sutskever的采访，并附文称：

“我不想显得事后诸葛亮，但我的确提醒过你。

引用：“AI实验室Safe Superintelligence（SSI）和OpenAI的联合创始人伊利亚·苏茨克韦尔（Ilya Sutskever）最近向路透社表示，通过扩大预训练阶段——即使用大量未经标注的数据来训练AI模型，使其理解语言模式和结构——所取得的成果已经停滞不前。”

回顾这位AI巨头过去两年对现行大模型路线的评判，可谓是字字珠玑，句句见血。

例如，今天的AI比猫还笨，智力差太远；LLM缺乏对物理世界的直接经验，只是操纵着文字和图像，却没有真正理解世界，强行走下去只会死路一条等等。

时间拨回两个月前，Yann Lecun更是毫不客气地给当下主流路线判了死刑：

大型语言模型（LLMs）无法回答其训练数据中未包含的问题；

它们无法解决未经训练的难题；

它们无法在缺乏大量人类帮助的情况下学习新技能或知识；

它们无法创造新的事物。目前，大型语言模型只是人工智能技术的一部分。单纯地扩大这些模型的规模，并不能使它们具备上述能力。

在一众AI末日论中，他还坚定地认为声称AI将威胁人类生存的言论纯属无稽之谈。

同在Meta FAIR任职的田渊栋博士则更早预见了当前的困境。

5月份在接受媒体采访时，这位华人科学家曾悲观地表示，Scaling Laws也许是对的，但不会是全部。在他看来，Scaling Laws的本质是以指数级的数据增长，来换取“几个点的收益”。

最终人类世界可能会有很多长尾需求，需要人类的快速反应能力去解决，这些场景的数据本身也很少，LLM拿不到。

Scaling law发展到最后，可能每个人都站在一个“数据孤岛”上，孤岛里的数据完全属于每个人自己，而且每时每刻都不停产生。

专家学会和AI融合，把自己变得非常强，AI也代替不了他。

不过，形势或许还没有到如此悲观的境地。

客观而言，Ilya在接受路透社的采访时，虽然承认了Scaling Laws带来的进展已趋于停滞，但并未宣告其终结。

“2010年代是追求规模化的时代，而现在我们再次进入了一个充满奇迹和探索的新时代。每个人都在寻找下一个重大突破。

在当下，选择正确的事物进行规模化比以往任何时候都更为关键。”

并且，Ilya还表示SSI正在秘密探索一种新的方法来扩展预训练过程。

Dario Amodei最近在一档播客中也谈及此事。

他预测，在人类水平以下，模型并不存在绝对的天花板。既然模型尚未达到人类水平，就还不能断言Scaling Laws已经失效，只是确实出现了增长放缓的现象。

自古，山不转水转，水不转人转。

上个月，OpenAI的研究员Noam Brown在TED AI大会上表示：

事实证明，在一局扑克中，让一个机器人思考20秒钟，得到的性能提升与将模型扩展100000倍并训练它100000倍长的时间一样。

而对于Yann lecun昨天的事后诸葛亮言论，他这样回应：

现在，我们处于一个这样的世界，正如我之前所说，进入大规模语言模型预训练所需的计算量非常非常高。但推理成本却非常低。

曾有许多人合理地担心，随着预训练所需的成本和数据量变得如此庞大，我们会看到AI进展的回报递减。

但我认为，从o1中得到的一个真正重要的启示是，这道墙并不存在，我们实际上可以进一步推动这个进程。

因为现在，我们可以扩展推理计算，而且推理计算还有巨大的扩展空间。

以Noam Brown为代表的研究者坚信推理/测试时计算（test-time compute），极有可能成为提升模型性能的另一个灵丹妙药。

说到这里，就不得不提到我们熟悉的OpenAI o1模型。

与人类的推理方式颇为相似，o1模型能够通过多步推理的方式“思考”问题，它强调在推理阶段赋予模型更充裕的“思考时间”。

其核心秘密是，在像GPT-4这样的基础模型上进行的额外训练。

例如，模型可以通过实时生成和评估多个可能的答案，而不是立即选择单一答案，最终选择最佳的前进路径。

这样就能够将更多的计算资源集中在复杂任务上，比如数学问题、编程难题，或者那些需要人类般推理和决策的复杂操作。

Google最近也在效仿这条路线。

The Information报道称，最近几周，DeepMind在其Gemini部门内组建了一个团队，由Jack Rae和Noam Shazeer领导，旨在开发类似的能力。

与此同时，不甘落后的Google正在尝试新的技术路径，包括调整“超参数”，即决定模型如何处理信息的变量。

比如它在训练数据中的不同概念或模式之间建立联系的速度，以查看哪些变量会带来最佳结果。

插个题外话，GPT发展放缓的一个重要原因是高质量文本和其他可用数据的匮乏。

而针对这个问题，Google研究人员原本寄希望于使用AI合成数据，并将音频和视频纳入Gemini的训练数据，以实现显著改进，但这些尝试似乎收效甚微。

知情人士还透露，OpenAI和其他开发者也使用合成数据。不过，他们也发现，合成数据对AI模型提升的效果十分有限。

你好，贾维斯

再见，GPT，你好，推理“o”。

在前不久举行的Reddit AMA活动上，一位网友向Altman提问，是否会推出“GPT-5”，以及推理模型o1的完整版。

当时，Altman回答道：“我们正在优先推出o1及其后续版本”，并补充说，有限的计算资源使得同时推出多个产品变得困难。

他还特别强调，下一代模型未必会延续“GPT”的命名方式。

现在看来，Altman急于与GPT命名体系划清界限，转而推出以“o”命名的推理模型，其背后似有深意。而推理模型的布局或许还是在于为当下主流的Agent埋下伏笔。

最近，Altman在接受YC总裁Garry Tan的采访时，也再次谈到了AGI五级理论：

L1：聊天机器人具有对话能力的AI，能够与用户进行流畅的对话，提供信息、解答问题、辅助创作等，比如聊天机器人。

L2：推理者像人类一样能够解决问题的AI，能够解决类似于人类博士水平的复杂问题，展现出强大的推理和问题解决能力，比如OpenAI o1。

L3：智能体不仅能思考，还可以采取行动的AI系统，能够执行全自动化业务。

L4：创新者能够协助发明创造的AI，具有创新的能力，可以辅助人类在科学发现、艺术创作或工程设计等领域产生新想法和解决方案。

L5：组织者可以完成组织工作的AI，能够自动掌控整个组织跨业务流程的规划、执行、反馈、迭代、资源分配、管理等，基本上已经与人类差不多。

所以我们看到，与Google以及Anthropic一样，OpenAI现在正在将注意力从模型转移到一系列称为Agent的AI工具上。

今天凌晨，彭博社曝出，OpenAI正在准备推出一款名为“Operator”的新型AI Agent，能够使用计算机代替用户执行任务，如编写代码或预订旅行。

在周三的一次员工会议上，OpenAI领导层宣布计划在一月发布该工具的研究预览版，并通过公司的应用程序接口（API）向开发者开放。

在此之前，Anthropic也推出了类似的Agent，能够实时处理用户计算机任务并代为执行操作。与此同时，微软近期推出了一套面向员工的Agent工具，用于发送邮件和管理记录。

而Google也正在筹备推出自己的AI Agent。

报道还透露，OpenAI正在进行多个与Agent相关的研究项目。其中，最接近完成的是一款能够在网页浏览器中执行任务的通用工具。

这些Agent预计将能够理解、推理、规划并采取行动，而这些Agent实际上是一个由多个AI模型组成的系统，并非单一模型。

比尔·盖茨曾经说过，“每个桌面上都有一台PC”，史蒂夫·乔布斯说过，“每个人的手上都有一部智能手机”。

现在我们可以大胆预测：每个人都将拥有自己的AI Agent。

当然，人类的终极目标是，我们更希望有一天能够对着眼前的AI说出那句电影的经典对白：

你好，贾维斯

OpenAI最新产品全曝光，秘密寻找下一个重大突破

推荐科技快讯

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

人类唯一的出路：变成人工智能（三）

饿了么口碑：今年计划招5000名员工、增80万骑手

盖茨力劝美国用核技术解决气候变化愿掏数十亿腰包

OpenAI最新产品全曝光，秘密寻找下一个重大突破

推荐科技快讯

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

人类唯一的出路：变成人工智能（三）

饿了么口碑：今年计划招5000名员工、增80万骑手

盖茨力劝美国用核技术解决气候变化 愿掏数十亿腰包

盖茨力劝美国用核技术解决气候变化愿掏数十亿腰包