首页科技快讯 OpenAI 的绝密项目“草莓”，对我们到底意味着什么？

OpenAI 的绝密项目“草莓”，对我们到底意味着什么？

来源：晰数塔互联网快讯时间：2024年07月16日 21:17

本文来自微信公众号：APPSO （ID：appsolution），作者：Selina，原文标题：《OpenAI 的绝密项目「草莓」，对我们到底意味着什么？》

新鲜体现在，这是一个高级别的保密项目，目标是「自主浏览互联网，执行深度研究」，不过，路透社没能挖到更多技术细节，只提到采取了「后训练」的方式——这就不算新鲜了。

两个月前，OpenAI创始人之一John Schulman在播客Dwarkensh上，就表示过，GPT-4的进步，很大程度上要归功于后训练技术。

「通过后训练，去创造一个能够具备人们所关心的功能的模型，是非常复杂的」John Schulman说，「这需要大量的投入，是大量研发工作的积累，在一定程度上就形成了壁垒。」

如果「Strawberry」的确是OpenAI的重点项目，那么可以想见，GPT-4的确让他们尝到了甜头。而厚实的家底又给了OpenAI底气，进一步加高技术壁垒。

沿着一条已经略有成果的技术路线，继续迭代，并不新鲜，到底为什么又成了大新闻呢？

一层一层，切开「草莓」

「Strawberry」的前身是「Q*」，一个在去年年底，就引起过轩然大波的神秘存在。

去年十一月，Sam Altman毫无征兆地被踢出了董事会，他自己甚至是在会议当时被通知的，震惊了全公司，也震惊了行业上下。

董事会当时给出的理由是，他和团队在安全和风险管理方面，无法达成一致。而这个风险，就跟当时的绝密项目「Q*」有关。

这个项目原先由Ilya Sutskever带领，现在他已经离开OpenAI创业，做的就是AI安全相关的业务。再联想到，马斯克曾经表示，这个项目「对人类构成了威胁」，很难不让人好奇这里头究竟有什么。

The Information和路透社想办法获得内部消息，最后也只能确认，数学运算能力是「Q*」的重点。

大模型擅「文」，能娴熟地处理语言文字，已经基本上跟人类打个平手了。但是数学运算却一直不太行。即便「Q*」曾经引发OpenAI的巨变，据路透社透露，当时它的表现大概是小学生的计算水平。

根据最新爆出的信息，OpenAI内部已经有项目能在数学运算方面，达到90%的准确，进步惊人。

强调一下：现在无法确认「Strawberry」究竟做到哪一步了。只能说，如果「Strawberry」作为「Q*」的升级版，大概率，它是一个继续在数学和计算方面寻求突破的项目。

「数学计算」和「推理」之间的关系，并不能直接划等号，但却透露着OpenAI的野心。

老说推理，究竟在说什么

那么，「推理」到底是什么？

这两个字在现实里，显然有着非常广阔的定义。今年年初，香港中文大学领衔的团队做过一个基于模型推理能力的全面整理。「推理」最根本的定义有三重：

认知推理：在不完整、不一致的知识中，得出有意义结论的能力

这种推理最常见的是拼拼图，每一个小片都是巨大图画里的一角，随便就抓两片，肯定是对不上的。

你只能举着这些小碎片，拼拼凑凑，慢慢组成一幅完成的图。这个过程中，没有说明书和步骤图，经常是要凭手感、凭直觉。

逻辑推理：根据前提，以及这些前提间的关系，有条理地得出结论，且结论在逻辑上有隐含关系或成立

数学解题就是典型逻辑推理，有已知条件，有待求的问题，根据这些，你就能一步步推算出结果。逻辑推理是目前大模型研发里「最硬的一块骨头」。

自然语言推理：这是一个整合多种知识的过程，可以是显性知识或者隐性知识，从而得出对于世界的新结论

喜欢看探案故事、推理小说的朋友，应该很容易理解。这种推理，就像是碰上了一桩凶杀案故事，书里隐隐约约有一些暗示，一些不太明确的信息，必须结合各种不同的线索，推测出谁是凶手，犯罪过程是什么。

如果只是看路透社所获得的OpenAI内部文件，「Strawberry」的目标是，规划、访问互联网，以及执行深度研究。

这些看上去都更像是最后一种自然语言推理，无非是更强化了一下，算不算得上是推理能力的进步都不好说。

可是，OpenAI对于「推理」并不那么拘泥，而是有一套更宏大的愿景。

John Schulman心中，对「推理」的定义是这样的：

「推理意味着需要一些计算，或者是需要一些演绎。从这个定义来看，要能够在处理任务的当时进行计算和逐步计算。」

可以看到，在他的定义里，推理和计算行为高度绑定，而且希望机器的推理是实时进行——就像人类一样，接收信息的同时，就能做分析、判读。

但是，一个人即便数学不好，也不妨碍ta有逻辑地想事情，照样能完成各种类型的推理。为什么机器的数学能力，就如此重要？

可以这样理解：数学从来都不只是做运算，它本身也是一种对信息的表达方式。

数学是一种更依赖于符号形式和意义精确性的语言，1就是1，0就是0。

当使用计算符号和算式，去呈现信息时，其实比自然语言更低维。

换句话说，大模型之所以「能文」，就是建立在「会算」的基础上，将自然语言转换成了计算机语言。

这一点，早在19世界，就已经被历史最重要的数学家之一，乔治·布尔（就是创造了布尔变量的那个布尔），奠定了基础。

George Boole

布尔是一个有虔诚宗教信仰的人，他甚至想通过数学推理，来解释上帝的存在。

先不管他最后的结论是什么吧，他最终留给世界的财富，也就是《思维规律的探究》一书里，开篇便阐释了他宏大的目标：用微积分的符号语言，来表达推理这一思维活动的基本规律。

这也解释了为什么，一旦谈及AI在数学运算上的表现，人们期待的眼光里就多了几分紧张：

攻破了数学语言，或许真的就离破解思维活动不远了。

AI推理，怎么就了不起？

现在距离AI理解思维活动，到底有多近？

这次路透社认为，「Strawberry」的理论先驱，应该是两年前，斯坦福大学团队发表的STaR技术。

STaR的开发者之一、斯坦福大学教授Noah Goodman接受路透社采访，表示他跟「Strawberry」没关系，但如果真的追平人类的推理能力，那是让人既兴奋、又恐惧的事。

Noah Goodman

STaR的特点是：具备特定条件下的推理能力。先拿一个已经训练过的模型，再准备一个小的数据集（里面包括推理步骤），喂进去训练。

有了这些，再让模型去生成解决问题的推理过程。如果出来是正确的、符合答案的，那么这次推理就判定为有效。

接着不断微调不断微调，不断让它自我学习。最后测试的结果是，这样的方式的确能够提升模型在数学运算方面的表现。

换句话说，特定条件和训练方式下，的确可以让模型效仿推理过程，从而实现具备一定的推理能力。

这样辛苦地挖掘和塑造AI的推理能力，对日常使用而言有什么意义？

路透社的线人说，OpenAI特别希望能够达成「CUA」，computer-using agent。模型能够根据文档和其他材料提供的信息，自主采取行动。

而这是OpenAI所提出的「五阶评级」中的第三阶：代行者，能够采取行动的系统。

图片来自：彭博社

现在的对话chatbot只是第一阶，「Strawberry」据称已经接近第二阶。

可以想见，推理能力是第三阶段的必要前提。只有具备了推理能力，通过各种信息，推演出用户意图，才有可能丝滑地完成服务调度，采取行动。

以鸿蒙的Harmony Intelligence为例，这是鸿蒙首次将AI能力融入系统。除了提供了基于生成式AI的图像、声音修复技术，还有惊艳的「控件AI化」，各种第三方应用可以调用系统空间处理请求，打破应用与应用之间的壁垒。

再比如，很快也要亮相的Apple Intelligence，也是旨在为用户创造更一体化、无缝衔接的体验。

在APPSO之前的报道中，我们就提到了AI不应该只作为一种服务，而是要能糅合进操作系统里，共同存在。这恰恰也是来自于OpenAI创始人之一，Andrej Karpathy的设想。

这就是AI推理能力备受瞩目的原因之一，只要你拥有一台智能手机，就不妨畅想一种可能的未来，「AI作为智能手机新的操作系统，而大模型就是智能操作系统的核心」。

OpenAI 的绝密项目“草莓”，对我们到底意味着什么？

推荐科技快讯

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

人类唯一的出路：变成人工智能（三）

饿了么口碑：今年计划招5000名员工、增80万骑手

盖茨力劝美国用核技术解决气候变化愿掏数十亿腰包

OpenAI 的绝密项目“草莓”，对我们到底意味着什么？

推荐科技快讯

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

人类唯一的出路：变成人工智能（三）

饿了么口碑：今年计划招5000名员工、增80万骑手

盖茨力劝美国用核技术解决气候变化 愿掏数十亿腰包

盖茨力劝美国用核技术解决气候变化愿掏数十亿腰包