首页科技快讯 36氪领读 | 什么是“忠诚”的人工智能？

36氪领读 | 什么是“忠诚”的人工智能？

来源：晰数塔互联网快讯时间：2020年10月10日 20:36

编者按：本文整理自《AI新生》，作者为斯图尔特·罗素。

如果世界上有一个叫哈里特的完全理性的人和一个乐于助人、恭敬有礼的机器人罗比，我们的状态就会很好。罗比会尽可能无声无息地逐渐了解哈里特的偏好，并成为哈里特的完美助手。我们可能希望从这个充满希望的开端推演下去，也许可以将哈里特和罗比的关系视为人类与机器之间关系的模型，无论是人类还是机器都被整体地解释。

然而，人类不是单一的、理性的实体，而是由多得不计其数的、令人讨厌的、嫉妒驱动的、非理性的、不一致的、不稳定的、计算能力有限的、复杂的、不断进化的、异质的实体组成的。这些问题是社会科学的主要内容，甚至可能是社会科学存在的理由。

在人工智能中，我们需要加入心理学、经济学、政治理论和道德哲学的思想。我们需要将这些思想熔化、塑形和锤炼成一个足够强大的结构，以抵御日益智能的人工智能系统给它带来的巨大压力。这项工作现在刚刚开始。

千人千面，那么机器呢？

我将从或许是最简单的问题——“人类是多种多样的”这一事实开始讲起。

当人们第一次接触“机器应该学会满足人类偏好”的想法时，人们通常会反对，反对的理由是，不同的文化，甚至不同的个人，有着完全不同的价值体系，因此机器不可能有正确的价值体系。当然，这对机器而言不是问题：我们不希望它拥有自己正确的价值体系，我们只是想让它预测其他人的偏好。

关于机器难以满足人类不同偏好的困惑可能来自一种错误的想法，即机器采用的是它学习到的偏好，例如认为素食家庭中的家用机器人会采用素食偏好。事实上，机器人不会这样。它只需要学会预测素食者的饮食偏好。除了帮助人类实现他们的偏好外，机器人并没有自己的一套偏好。

从某种意义上讲，这与餐馆厨师学做几道不同的菜来满足客人不同的口味，或者跨国汽车公司为美国市场生产左舵驾驶汽车，为英国市场生产右舵驾驶汽车没有什么不同。

原则上，一台机器要学习80亿个偏好模型，即地球上每个人的偏好。而在实际中，这并不像听上去那么无望。首先，机器很容易互相分享它们学到的东西。其次，人类的偏好结构有很多共同点，所以机器通常不会从头开始学习每个模型。

机器的权衡与决策

存在多人的另一个明显后果是，机器需要在不同人的偏好之间进行权衡。

几个世纪以来，人与人之间的权衡问题一直是社会科学的主要焦点。如果人工智能研究人员期望他们能够不用了解已知成果就找到正确的解决方案，那就太天真了。关于这个主题的文献浩如烟海，我不可能在这里对它做出公正的评价，不仅因为篇幅有限，还因为我没有读过其中的大部分内容。我还应该指出，几乎所有的文献都与人类的决策有关，而我在这里关注的是机器的决策。

二者截然不同，因为人类有个人权利，这可能与任何假定的为他人履行的义务相冲突，而机器则没有。例如，我们不期望或要求一个真实的人类牺牲自己的生命来拯救他人，而我们肯定会要求机器人牺牲自己的存在来拯救人类的生命。

哲学家、经济学家、法学家和政治学家经过几千年的努力，制定出了宪法等法律、经济体系和社会规范，它们有助于（或阻碍，取决于谁负责）达成满意的折中解决方案。尤其是道德哲学家一直在从行为对他人有益或有害的影响的角度来分析行为正当性的概念。自18世纪以来，他们一直在效益主义的主题下研究权衡的量化模型。这项工作与我们目前关注的问题直接相关，因为它试图定义一个公式，根据这个公式，人工智能可以代表许多个人做出道德决定。

即使每个人都有相同的偏好结构，我们也需要进行权衡，因为我们通常不可能最大限度地满足每个人的偏好。

例如，如果每个人都想成为全能的宇宙统治者，那么大多数人都会失望。另外，异质性确实让一些问题变得更加困难：如果每个人都对天空是蓝色的感到满意，那么处理大气问题的机器人就可以努力保持这种状态；如果很多人都在鼓吹改变天空的颜色，那么机器人就需要考虑可能的妥协，比如每个月的第三个星期五把天空变成橙色。

世界上不止一个人存在这一事实还产生了另一个重要的后果：这意味着，对每个人而言他都有其他人需要关心。这意味着满足一个人的偏好会对其他人产生影响，这取决于个人对他人幸福的偏好。

什么是“忠诚”的人工智能？

对于机器应该如何处理多人存在的问题，让我们从一个非常简单的建议开始讲起：机器应该忽略有多人存在这一事实。也就是说，如果哈里特拥有机器人罗比，那么机器人罗比应该只关注哈里特的偏好。这种忠诚的人工智能绕过了权衡的问题，但会导致下面这种问题：

机器人罗比：你丈夫打电话提醒你今晚一起吃晚餐。

哈里特：等等！什么？什么晚餐？

机器人罗比：庆祝你们的20周年纪念日，7点钟。

哈里特：我没时间！我7点半会见秘书长！这是怎么回事？

机器人罗比：我确实提醒过你，但你没有听我的建议……

哈里特：好吧，对不起……但是我现在该怎么办？我不能跟秘书长说我太忙了！

机器人罗比：别担心。我会安排她的飞机晚点，让飞机出点电脑故障。

哈里特：真的吗？你还能这么做？！

机器人罗比：秘书长向你致以深深的歉意，并很高兴明天与你共进午餐。

此处，机器人罗比找到了一个巧妙的方法来解决哈里特的问题，但它的行为对其他人产生了负面影响。如果哈里特是一个恪守道德规范且无私的人，那么旨在满足哈里特偏好的机器人罗比永远也不会想到执行这样一个可疑的计划。但是，如果哈里特对其他人的偏好毫不在意，又会如何？那样的话，机器人罗比不会介意让飞机晚点。它会不会花时间从网上银行账户里偷钱，来填满冷漠的哈里特的钱包，甚至做出更糟糕的事情？

显然，忠诚机器的行为需要受到规则和禁例的约束，就像人类的行为受到法律和社会规范的约束一样。

有些人提出严格责任原则作为解决方案：哈里特（或机器人罗比的制造商，这取决于你希望让谁承担责任）对机器人罗比的一切行为负有经济上和法律上的责任，就像在美国大多数州，如果狗在公园咬了小孩，狗的主人要承担责任一样。这个想法听起来很有希望，因为这样罗比就有动机避免做任何会给哈里特带来麻烦的事情。

不幸的是，严格责任原则并不管用：它只是确保了机器人罗比在为了哈里特的利益而造成飞机延误和偷钱时的行为不会被发现。这是漏洞原则在实践中的又一个例子。如果机器人罗比忠于一个寡廉鲜耻的哈里特，那么试图用规则来约束它的行为就可能会失败。

即使我们能以某种方式阻止公然的犯罪，为冷漠的哈里特工作的忠诚的机器人罗比也会表现出其他令人不快的行为。如果它在超市买东西，它会尽可能在收银台插队。如果它在购物回家途中遇到一个路人心脏病发作，它会选择无视，继续回家，仅仅为了让哈里特的冰激凌不融化。总之，它会找到无数种牺牲他人利益的方法来造福哈里特，这些方法是完全合法的，但在大规模实施时会变得不可容忍。各国会发现自己每天都要通过数百项新法律，以弥补机器将在现有法律中找到的所有漏洞。人类往往不会利用这些漏洞，或是因为他们对潜在的道德原则有普遍的理解，或是因为他们缺乏发现漏洞所需要的创造力。

因此，打造忠诚的人工智能的想法很难成立，除非这个想法被拓展到除了考虑主人的偏好之外，还考虑其他人的偏好。

效益主义的人工智能

我们之所以有道德哲学，是因为地球上不止一个人生活。与理解人工智能系统应该如何设计最相关的方法通常被称为结果主义，即应该根据预期结果来评判选择。另外两种主要的方法是道义论伦理学和美德伦理学，非常粗略地讲，这两种伦理学分别关注行为和个人的道德品质，而与选择的后果无关。

没有任何证据表明机器有自我意识，因此我认为，如果其结果非常不符合人性，那么建造道德高尚或按照道德准则选择行动的机器就毫无意义。换言之，我们制造机器是为了带来结果，我们应该更喜欢制造能带来我们喜欢的结果的机器。这并不是说道德准则和美德无关紧要，只是对效益主义者而言，他们是根据结果和那些结果的更实际的成就来判断正当性的。

尽管很多人都尝试过反驳结果主义，但是结果主义是一个很难反驳的原则。因为以结果会产生不良结果为理由反对结果主义是不合逻辑的。人们不能说，“但是如果你在某某情况下遵循结果主义的方法，那么这种非常可怕的事情就会发生”。任何这样的失败都只是该理论被误用的证据。

如果我们计划建造结果主义机器，下一个问题是如何评估影响多人的结果。一个貌似合理的答案是给予每个人的偏好同等的权重，也就是最大化每个人的效用总和。

这个答案通常可以追溯至18世纪的英国哲学家杰里米·边沁和他的学生约翰·穆勒，他们发展了效益主义的哲学方法。其底层思想源自古希腊哲学家伊壁鸠鲁的著作，这一思想还明确地出现在中国哲学家墨子的著作《墨子》中。墨子活跃于公元前4世纪，他提出了“兼爱”的思想，意为“包容的关怀”或“普世的爱”，以此定义道德行为的特征。

效益主义的名声有些不太好，部分原因是人们对它的主张存在简单的误解。（效益主义一词的意思是“为了实用而设计，而不是为了吸引人而设计”，这当然无济于事。）效益主义经常被认为与个人权利不相容，因为效益主义者会对未经许可就切除一个活人的器官去挽救其他五个人的生命无动于衷。当然，这样的政策会使地球上每个人的生活都处于让人无法忍受的不安全之中，而效益主义者甚至不会考虑这一点。

效益主义也被错误地认定为一种相当不讨人喜欢的最大化财富的行为，并被认为不重视诗歌或苦难。事实上，边沁的版本特别关注人类的幸福，而穆勒则自信地宣称智力上的快乐远比单纯的感觉更有价值。（“当一个不满足的人比当一头满足的猪更好。”）G.E.摩尔的理想效益主义走得更远：他主张将内在价值的心理状态最大化，这集中体现为对美的审美观照。

我认为效益主义哲学家没有必要规定人类效用或人类偏好的理想内容。（人工智能研究人员这样做的理由就更少了。）人类可以为自己做到这一点。经济学家约翰·豪尔绍尼用他的偏好自主原则提出了这一观点：“一个人在决定什么是好什么是坏时采用的最终标准只能是他自己的欲望和偏好。”

因此，豪尔绍尼的偏好效益主义与我在《AI新生》中提出“有益的AI”的第一原则大致一致，即机器的唯一目的是实现人类的偏好（此原则主要用于指导人工智能研究人员和开发人员如何创建有益的人工智能系统）。人工智能研究人员绝对不应该从事决定人类偏好的工作！和边沁一样，豪尔绍尼把这些原则视为公共决策的指南，他不期望个人完全无私。他也不期望个人完全理性，例如，一个人可能拥有与自己“更深层次的偏好”相矛盾的短期欲望。