首页科技快讯有效加速还是超级对齐？

有效加速还是超级对齐？

来源：晰数塔互联网快讯时间：2023年12月01日 21:43

两周前， OpenAI公司经历了一场“百时政变”：11月16日晚，OpenAI的CEO山姆·奥特曼（Sam Altman）收到了公司首席科学家伊利亚·萨斯克维尔（llya Sutskever）的短信，约他在第二天谈一谈。

11月17日，奥特曼如约而至，却惊讶地发现萨斯克维尔邀他参加的并不是一次私人谈话，而是一场“鸿门宴”。除了董事长兼总裁格雷格·布罗克曼（Greg Brockman）之外，整个OpenAI的董事会悉数到会，并当场宣布了解雇奥特曼的决定。随后，布罗克曼也收到了董事会的来信，被通知他已经被逐出了董事会。就这样， OpenAI最有权势的二人就在董事会的这次突然袭击中被“缴械”了。

在遭到废黜之后，奥特曼游说各方势力，以寻求力量来帮助其“复辟”。最终，在OpenAI员工的集体请愿，以及微软的外部压力之下，奥特曼在11月21日又重新成为了OpenAI的CEO，而先前驱逐他的董事们则反过来被他驱逐。最令人感到吊诡的是，在七百多位OpenAI员工要求奥特曼回归的公开联名信中，签名的也有向其“逼宫”的萨斯克维尔。

一场轰轰烈烈的政变就这样结束了，从开始到结束，总共不过短短的104个小时。然而，围绕着这场未遂“政变”的议论并没有就此终结：既然奥特曼本人受到公司内外如此的看好和拥戴，董事会当初究竟为何要强行将其开除？董事会此前称开除奥特曼是因为他“在和董事会的沟通中始终不坦诚”，但这样的一个解释怎么看都似乎是过于草率了，奥特曼究竟向董事会隐瞒了什么？他这样做又是为了什么？

神秘的Q*模型

正在人们猜测事件的真相时，一则劲爆的消息出现在了网上。据报道，OpenAI首席技术官米拉·穆拉蒂（Mira Murati）向员工透露，在董事会开除奥特曼之前，有几位内部工作人员致信OpenAI的董事会，警告他们公司此前在Q*模型取得的突破有可能会对人类造成威胁。而这一封信很可能是导致董事会决心罢免奥特曼的直接导火索。

这个被传得神乎其神的Q*模型究竟是什么呢？它其实是萨斯克维尔主持研发的一个项目，其前身是2021年开始立项的GPT-Zero。由于OpenAI本身并没有对外界披露关于Q*模型的细节，因而外界对于这个模型的讨论主要还是基于猜想：

一种猜想认为，Q*模型的名称似乎暗示了它是基于所谓的Q学习模型的。Q学习算法是强化学习算法的一种，当人们使用这种算法时，无需对环境进行建模，智能体可以自动通过估计动作-状态组合的“质量”来进行学习决策。

举例来说，我们可以让一个机器人用Q算法来走迷宫。在这种算法之下，它将尝试不同的路线来找到通往出口的最快路径。通过不断的试错，机器最终会得到一个策略，也就是所谓的“Q表”（Q-table），告诉它从迷宫中的每个位置采取的最佳行动。而在这个学习的过程中，所有的步骤都依赖于机器与环境的互动，研究人员无需进行干预。

需要指出的是，Q学习模型的思维和OpenAI在训练GPT时使用的“人类反馈强化学习”（Reinforcement Learning from Human Feedback，即RLHF）模型有很大的不同。后者的学习过程在很大程度上还需要人类的帮助，因而它的效率相对较低，但一旦在学习过程中发现了问题，人类可以及时地进行干预；相比之下，Q学习算法的学习效率要高得多，但与此同时，由于整个学习过程都是由机器自动完成的，因而如果发生了问题，人们也很难进行干预。

另一种猜想则认为，解开Q*模型神秘面纱的关键可能在它的曾用名，即GPT-Zero上。熟悉AI发展史的朋友应该很容易看出来，GPT-Zero这个名字其实是在向Alpha-Zero致敬。虽然和Alpha-Go同为DeepMind的产品，但Alpha-Zero的特点是十分突出的：Alpha-Go是基于人类已有的棋谱训练的，虽然它的学习量很大，但终归是有限的；而Alpha-Zero则会自动合成棋谱来进行学习，因而从理论上，它的学习空间是无限的。

当然，也有人猜测，Q*模型或许是Q学习算法和合成数据的综合。如果这种猜测是正确的，那就意味着智能体将可以在没有人类任何干预的情况下进行一种“永动机”式的学习：自己生产学习材料，自己探索模型，再利用模型进行学习。从理论上讲，只要投入的运算资源足够，那么它的智能水平就会出现爆炸性的增长——并且，这种“爆炸”还可能是持续的。

在这样的情况下，如果AI出现了“觉醒”，拥有了自己的意识，那么人类面对的将可能是一个智能远远凌驾于自己之上的新型硅基生命。假如它萌发出了什么不利于人类的想法，人类将很难有抵挡的能力。或许正是因为这个原因，所以才有了那封内部工作人员写给董事会的警告信。

现在的问题是，为什么董事会在接到了警告信之后，就决定了要拿下奥特曼？而带领董事会完成这一切的为什么是萨斯克维尔？这一点，很可能源于两人对技术和社会关系的认识冲突。

奥特曼是有效加速主义者吗？

在现在的AI圈内，奥特曼经常被认为是一名“有效加速主义者”。

什么是“有效加速主义”（Effective Accelerationism）呢？它是一种关于技术和社会关系的哲学思想。从名称就可以看出，它和所谓的“加速主义”有着深厚的渊源。

早在1967年，美国科幻大师罗杰·泽拉兹尼（Roger Zelazny）在其小说《光明之王》（Lord of Light）中提出了一种被称为“加速主义”的理念，这种理念认为，要改变社会就必须改变社会对于技术的态度。

在上世纪六七十年代，这种理念非常具有影响力，包括德勒兹、利奥塔在内的著名哲学家都曾对其进行过阐发。在这个阶段，加速主义带有十分明显的左翼色彩，持这种观点的人普遍认为资本主义阻碍了技术的发展，应当通过技术发展来埋葬资本主义，发展出新的人类社会形态。

到了上世纪八九十年代，英国右翼哲学家尼克·兰德（Nick Land）重新发掘了“加速主义”的内涵，他放弃了左翼加速主义者的斗争观念，认为应当在资本主义逻辑中加速前进。在他看来，资本主义从来没有被完全的释放，而是总被政治阻碍着。每一个文明都在加速冲向最终的大灾难。政治组织总是在试图阻挡这个进程，但并不能改变最终的结局。人类的选择就是自己主动加速冲向这个大灾难的结局。

在兰德之后，包括萨迪·普兰特（Sadie Plant）、马克·费希尔（Mark Fisher）在内的一批激进哲学家加入了兰德的队伍，并和他一起总结出了加速主义的内核，即“资本主义+技术”。

从根本上看，现在在硅谷流行的“有效加速主义”可以被视为是加速主义思想的一个延续。但是由于它融入了很多物理学、生物学，以及“超人类主义”（Transhumanism）哲学的内容，所以其内涵更为丰富，从形式上看，也显得更为“科学化”。

例如，在网上广为流传的《关于e/acc原则和教义的说明》（Notes on e/acc principles and tenets）中就宣称有效加速主义的基础是热力学第二定律。根据这个定律，宇宙是一个不断膨胀和优化的过程。在有效加速主义者看来，人类社会也满足这个定律，不过和在自然界不同，热力学第二定律在社会领域的作用过程中，所谓的“技术资本”（technocapital）起到了关键的作用。这里说的“技术资本”，是一种超越人类个体的智力形式。

在有效加速主义者看来，正是技术资本主导了社会的演化，塑造了包括人工智能奇点在内的重要事件。相比之下，人类则只是技术资本实现其目的的过程中用到的“齿轮”（cogs）。基于这种“科学”信念，有效加速者认为，有效加速运动并不是一场社会运动，甚至也不是一种意识形态，而只是一种对真理的承认。无论是现实中的官僚体系、技术治理，还是任何试图控制技术的力量，都妨碍了人们承认真理，因而都需要被革除。

虽然从哲学上看，有效加速主义可谓玄之又玄，但落到实践上，它却十分简单。一言以蔽之，就是不顾一切地加速技术的发展。我们知道，在技术进步的过程中，可能产生很多问题。比如，基因技术的发展可能会造成很多伦理学的困境，而人工智能的发展则可能会带来大量的技术性失业。

那么，有效加速主义者会如何看待发展中出现的这种问题呢？他们的答案很简单，就是对其视而不见。因为在他们的哲学中，技术资本是高于人类的存在，所以当面临技术发展带来的各种变化时，主动适应变化就是人类的义务，人的利益或者其他的任何理由都不应该成为阻碍技术发展的理由。

由于硅谷的创业者们大多是技术发烧友，因而有效加速主义倡导的技术至上思想很容易获得很多人的认同。现在的问题是，奥特曼真的像人们传说的那样，也是一位有效加速主义的支持者吗？关于这一点，其实是存在一些争议的。因为在很多场合，奥特曼都表达了对AI发展可能带来的各种问题的忧虑。在美国国会召开的听证会上，他甚至公开呼吁对AI进行监管。

不过，越来越多的证据开始表明，奥特曼的这些举动其实只是作为商人的逢场作戏。比如，奥特曼曾经公开表示，他在有效加速者的聚集地——e/acc论坛有一个秘密的帐号。当然，人们将奥特曼视为一个加速主义者的主要理由是他在现实中对技术表现出的激进态度。

例如，其实在OpenAI推出GPT之前，微软、谷歌等大型企业都在内部开发类似的AI项目。然而，就在这些公司纷纷出于伦理考虑控制项目开发的进度时，奥特曼却不顾这些，让OpenAI抢先上线了GPT。

后来，出于改进GPT性能的需要，他又让GPT率先接入了网络，从而让AI可以实时接受最新的信息。在很多人看来，奥特曼的这一系列激进行为已经清晰无疑地说明了——他作为一个有效加速主义者的真相。所谓“听其言，观其行”，相比于任何的言语，这些行为的证据似乎是更具有说服力的。

超级对齐主义者的选择

和倾向于有效加速主义的奥特曼不同，领导OpenAI政变的萨斯克维尔则是“超级对齐”（Superalignment）的信奉者。

在当下的AI圈，对齐（Alignment）是一个备受关注的概念。虽然关于这个概念的定义，不同的文献存在着一些细微的差异，但大致上讲，它指的是通过对AI系统的行为进行引导，让其能够符合设计者的意图。

乍一看，对齐似乎并不是一件难事——毕竟，AI的程序都是由人类设计者编制的，只要选择合理的目标函数、制定合理的行为准则，就可以让它按照设计者的意志行事。然而，事实并没有那么简单：

第一，设计者本人经常很难精确表述自己的意图，因而AI当然就很难真正做到按照其意志行事。比如，在科幻小说中，设计者经常会给AI设定一些诸如“保护人类安全”、“让人类幸福”等宏大任务，但对于“安全”、“幸福”这些词语，即使人类本身也无法精确界定和表述。

在这样的情况下，如果让AI执行这些任务，它就可能做出一些人们并不期望的事情。举例来说，为了保证人类的绝对安全，它们可能将人类像动物一样圈养起来；而为了让人们幸福，它们则可能会直接在人类脑子里插上电极，不断刺激分泌多巴胺的腺体。

第二，人们在设计AI的过程中，经常难以完全顾及其程序可能产生的所有后果，因而AI在执行其设定的程序时，可能带来很多意料之外的后果。从事AI对齐工作的人在论及这一点时，经常会引用雅各布斯的恐怖小说《猴爪》（The Monkey's Paw）。

这个小说讲了这样一个故事：怀特夫妇意外地得到了一个拥有魔力的猴爪，猴爪可以实现他们的三个愿望。怀特夫妇先许了一个愿，想要一百英镑。这个愿望很快实现了——第二天，他们在工厂上班的儿子出了意外，被卷进机器惨死，作为赔偿，工厂主给了他们一百英镑。儿子的身故让怀特夫妇十分悲伤，于是他们向猴爪许第二个愿，想让自己的儿子回来。这个愿望也实现了，但回来的儿子早已不是一个鲜活的人，而是一具行尸走肉。

这让这对老夫妻非常害怕，于是他们向猴爪许了第三个愿，让儿子消失。在许下这个愿望后，他们的儿子就消失了。在上面这个故事中，怀特夫妇一共向猴爪许下了三个愿望，而猴爪也如他们所愿，实现了这三个愿望。不过，这些愿望的实现并没有如他们所设想的那样给他们带来境况的改善，相反，还让他们失去了自己的爱子。

在AI对齐问题中，AI就像是那个可以帮人实现愿望的猴爪，它可以帮助人们去完成很多自己难以完成的任务。然而，如果AI在完成任务的过程中不择手段，那就可能像故事中的猴爪那样，不仅不会给人们带来幸福，反而会给人带来灾难。

第三，在很多时候，人的目标是多样的，因而当他把这些目标传递给AI时，会对不同的目标赋予一定的权重，在这种情况下，AI出于优化的考虑，可能过度重视那些被赋予高权重，并且容易被检查的目标，而忽略了其余目标。

举例来说，对于一个用来辅导孩子学习的AI，人们会希望它既能帮助孩子提升分数，也能帮助孩子提升学习能力。很显然，在这两个目标中，前一个是更容易量化的，并且在通常情况下，它也会被人们赋予更高的权重。因而，在AI执行任务时，就会优先照顾这个目标，让孩子不断刷题、辅导他们各种解题的技巧，而这一切对于提升孩子的真实学习能力可能并没有什么帮助。

基于上面的几个问题，要让AI真正地按照设计者的意图行事可能并没有人们想象的那么容易。

除此之外，还有一个更重要的问题也困扰着人们，那就是所谓的“对齐”究竟应该是向谁“对齐”。现实中，人们的利益诉求是多方面的，关于某一个具体的任务，他们对各种实现途径的偏好并不相同。此时，如果要让AI去为众多的人服务，它就会陷入一仆多主的困境。

为了让AI可以成功实现对齐，人们已经做了很多的努力，并形成了很多种不同的思路。比如，在训练ChatGPT时，OpenAI就采用了RLHF的思路，即用人类的反馈来纠正AI的行为。据报道，为了实现这种训练，OpenAI曾雇佣了上万名人类训练员，针对ChatGPT对敏感问题的回复进行打分。通过这种方式，ChatGPT就可以从大量的人类反馈中逐渐摸索出人类对于特定问题的主流看法，并用它来指导自己的行为。

RLHF成功的关键之一，就是要将人类的反馈有效地反映到AI的报酬函数上，从而改变AI的激励。然而，有时候人的观察会出现偏差，因而他们反馈给AI的激励也就不正确。更有甚者，AI出于最大化其报酬函数的目的，还可能故意利用人类训练员的观察缺陷，对其进行欺骗。

针对这样的情况，一些AI从业人士建议用 “超级对齐”来对AI系统，尤其是超级AI系统（Superintelligent AI System）进行对齐。这种策略的基本思路就是先创建一个“大致相当于人类水平的自动对齐研究员”（automated human-level alignment researcher），然后用它来执行针对AI的对齐工作。

换言之，就是在执行对齐工作的过程中，将那些更适合由AI完成的工作尽可能交由AI来自动完成，而人类则仅负责其中最为关键的那一部分，以此来尽可能提升对齐的效率。目前，这种对齐思路已经得到了一些AI企业的推崇。例如，OpenAI就在今年7月启动了一个超级对齐项目，而主持这个项目的正是萨斯克维尔和另一位科学家简·雷克（Jan Leike）。

萨斯克维尔曾在很多场合表达过对他主持的这个项目的重视。比如，在Youtube上的一个访谈中，萨斯克维尔曾把未来的超级AI比作核电站。在他看来，就像人们需要投入大量的资源来防止核电站的意外泄漏一样，为了防止超级AI可能对人类造成的危害，必须在对齐工作上投入充足的资源。

有意思的是，对于奥特曼呼吁监管AI的表态，人们将信将疑；而对于萨斯克维尔对对齐的重视，人们则愿意选择相信。我想，人们的这个判断，很大程度上是基于萨斯克维尔过去的背景作出的。萨斯克维尔是被誉为“深度学习之父”的杰弗里·辛顿（Geoffrey Hinton）的学生，辛顿本人就十分重视对齐问题。

到此为止，我们就可以大致脑补出萨斯克维尔之所以要在开始带头驱逐奥特曼，随后又愿意请愿，让其回归的原因了：如果奥特曼真是一名有效加速主义者，那么他就会力主放弃一切对GPT发展的阻碍；即使他对有效加速主义的信仰并不那么强烈，单纯从一位企业家的立场出发，他也未必会同意人为延缓自己产品的发展。

而作为超级对齐的信仰者，萨斯克维尔显然不会让奥特曼在这种在他看来会关乎人类存亡的问题上举棋不定。尤其是当他看到Q*模型的突飞猛进，已经展现出超级AI的趋势时，就不得不事急从权，联合其他几位董事发动了政变。

然而，当他看到，在驱逐了奥特曼之后，OpenAI本身就出现了分崩离析，自己的超级对齐项目也将面临破产。而与此同时，奥特曼以及OpenAI的大量人才则可以很容易加盟微软等其他企业，从而将超级AI项目继续下去。如果情况照此发展，那么超级AI的失控可能会来得更快。相比于这样的情况，把奥特曼重新请回来，让他继续支持超级对齐项目，或许反而是一个更好的折中方案。

第三条道路：d/acc

接着，让我们将关注的焦点转到一个更为重要的问题上：在AI技术日新月异，超级AI似乎近在眼前的今天，我们究竟应该秉承有效加速主义的态度，任由技术的发展，还是坚持超级对齐的观点，坚持AI的发展必须以符合人类的意图？

从我个人的角度出发，我并不完全赞同上面两种观点中的任何一个。相比于它们，我更赞同以太坊创始人维塔利克·布特林（Vitalik Buterin）所倡导的d/acc。在d/acc这个词中，acc是加速的缩写。所以，我们不难看出，它其实是另一个版本的加速主义。

其中的d，则有很多种解释，比如可以解释为“防御”（defensive）、“去中心化”（decentralized）、“民主化”（democratic）等。把d和acc放在一起，就是一种主张用去中心化、民主化的防御机制去应对发展中的问题。

按照历史的经验，虽然技术的发展一定会带来各种各样的问题，但从总体上讲，它带来的利一般是会大于弊的。因而，即使如加速主义者所言，人类在技术发展的过程中并不是主角，但作为配角的他们总体上也是可以从这个过程中获益的。

反过来，拒斥技术的发展，不仅需要很大的成本，还可能错过提升生活水平的机会，因而是得不偿失的。从这个角度看，不发展反而是最大的风险，加速主义的总体思路并没有错。

那么，如何应对AI加速发展过程中出现的问题呢？是用超级对齐吗？我个人认为，并不合适。在超级对齐当中，最为关键的是要确保用于执行AI对齐的自动AI研究员本身已经是对齐的。但讽刺的是，它是否已经做到了这一切，评判权却掌握在一小部分专家手里。事实上，从OpenAI事件我们可以看出，这个被人们寄予希望的善良AI甚至不能代表整个OpenAI董事会的一致利益，更遑论全人类了。

相比之下，d/acc通过分布式技术，一方面让更多的人共同参与到AI对齐当中，用民主方式对AI的行为进行判定；另一方面则对AI可能产生的问题筑造起更多的防御壁垒，则似乎可以在保证技术充分发展的同时，更好地让AI实现对“人类价值”的对齐，也可以更好预防对齐失败所带来的灾难性后果。从这个角度看，它似乎是一个更为折中，也更为稳妥的AI发展方案。

本文来自微信公众号：经济观察报观察家（ID：eeoobserver），作者：陈永伟