首页科技快讯 ChatGPT的这个弱点，说明人与AI没有本质区别

ChatGPT的这个弱点，说明人与AI没有本质区别

来源：晰数塔互联网快讯时间：2023年04月11日 21:56

本文来自微信公众号：人神共奋（ID：tongyipaocha），作者：人神共奋，头图来自：《终结者》

一、人工智能不只是ChatGPT

ChatGPT火了之后，有一个段子，说：我们过去想象的人工智能是，我们写诗画画编音乐，AI烧饭洗碗修电脑，没想到，最后是AI写诗画画编音乐，我们自己烧饭洗碗修电脑。

白领危机四伏，蓝领暗自庆幸。

然而，ChatGPT实际上只是人工智能历史上的第一个爆款应用，又是以一对一对话形式展开，效果又超出了我们的心理预期，很容易让我们产生一个“人工智能能说会道”的错觉，进而让我们觉得，它未来可以取代很多白领的工作。

其实，ChatGPT底层的自然语言大模型GPT，只是众多人工智能大模型中率先“涌现”的一个，它更倾向于生成文本的能力，所以看起来都是写写文章，说说话，画画画，但并不是说人工智能就只能干这些，你总不能因为赵本山演小品，就以为东北人只会演小品吧？

所以说，哪有什么“只取代白领的工作”这么简单的事啊，取代蓝领工作的人工智能早晚也会来的。

仅就自然语言大模型而言，最有名的有两种方向，除了GPT模型外，还有Google的BERT模型，两者的核心区别在于目标不同，GPT更倾向于生成文本，而BERT 模型更倾向于理解文本，更不用说还有更多开发中的各种方向的人工智能模型。

这个区别可能人类无法理解，不理解文本怎么生成文本呢？

但这个问题对AI来说，并不存在。

本文就从这个话题开始，聊一聊ChatGPT跟人类的“思考方式”有什么不同。

二、文科的GPT和全科的BERT

在不理解的基础上，如何生成内容？大家可以参考一部励志日本电影《垫底辣妹》。

这部电影讲述了一个年级倒数第一的差生，通过一年内复习考入日本一流名校庆应大学的真实故事，相当于在全国学生中的最后2%，进步到前2%。

这个神奇的故事之所以能实现，是因为她只要考“英语、小论文、历史”这三门强调记忆的科目，她不需要很深的理解，只需要记忆和“生成”，注意重点是——不考数学、物理等注重推理的科目。

而GPT模型的成功，就像“垫底辣妹”一样，很大程度在于选择了“语言生成”为目标的捷径，从而让它看上去的效果比它实际上的突破更明显——这一点跟现实中一样，一个能说会道的员工，总是比只会干实事的员工，看起来更能干。

GPT模型就像文科毕业生，由于其在生成文本方面的强大能力，毕业后最大的“就业去向”是自动生成文章类的“工作”、包括新闻、广告文案、创意内容、法律文书、文秘、各类咨询，等等；其次的“就业去向”是作为聊天机器人、虚拟助手、智能客服，等等，进行更加自然、流利的对话。

相比而言，BERT模型虽然也是一个文科生，但也要学习数学、物理这一类注重推理的课程，全面发展。BERT模型需要“理解”文本的内容，GPT模型则不一定。

两者的区别在一开始训练时就产生了，GPT的训练目标是通过最大化下一个单词的条件概率来预测下一个单词，从而完成生成任务；而BERT的训练目标是随机掩盖一些输入词汇并要求模型预测这些词汇，强迫模型预测缺失的单词，因此它的理解是到词汇这个级别的。

在不理解的基础上生成的文本，难免会发生胡说八道的情况，虽然大家已经觉得GPT很神奇了，但如果真的大规模投入应用，在那些非生成内容为主的应用上，它还是有缺陷的。

比如你对AI助理说：“帮我在陆家嘴附近订一个粤菜餐馆，人均消费在500元左右，时间是明天晚上。”

对于这个句子，GPT模型的“理解”是从过去的语料训练中，判断“陆家嘴、粤菜、明天晚上、人均消费、500元”这些词的组合而不是词本身的意义，由此来判断自己应该输出什么样的内容，它对于语言的最小理解单位是句子，而不是词汇，会导致“模型产生幻觉，编造训练中从未有过的数据”。所以我们有时看到GPT推荐必胜客等成都小吃的离谱结果，因为它并不理解“必胜客”的属性，它还会把数学计算中的1995当成年代。

虽然GPT4中，这些现象已经大大减少，但由于底层逻辑仍然是一个“文科生”，未来很难说在遇到更复杂的问题时，会不会出错，很可能最后给你预订了一个经常与粤菜馆一起出现的咖啡馆。

由此看来，GPT模式不会是终点，AI代替人类的工作，文本类只是一个“开胃菜”。

很多人可能会想，GPT模型的进化速度如此之快，年底就要发布GPT-5了，那未来会不会真的“理解”人类的语言呢？

这就要涉及到，到底我们应该如何定义“理解”？人类又是如何“理解”的？

三、相关性不等于因果性……吗？

熟悉逻辑学的读者一定知道，它有一个著名的说法：相关性不代表因果性，相关性只是对现象的描述，因果性才是现象之间的内在联系。

所以有人说，人类与人工智能的区别在于，人可以判断因果关系，而人工智能只能判断相关性。

这个观点的后半段是正确的，目前所有的人工智能模型，都是通过学习数据中的相关性来进行预测和推理。

GPT模型完成任务的方法就是“猜猜下一个概率最大的词是什么”，根据输入的一段文本，预测下一个单词出现的概率分布。比如给定前面的句子“我喜欢吃？”，模型可能预测下一个单词为“苹果”的概率是0.2，“香蕉”的概率是0.3，“披萨”的概率是0.1，等等，这些概率值的总和为1，代表了所有可能的下一个单词的概率分布。

根据这个概率分布，选择最有可能出现的单词。所以ChatGPT都是一个字一个字地蹦出来的，跟刚刚学会说话的小孩子一样。

BERT模型的复杂之处也在于概率判断，它会考虑每一个单词与前后文的关系，还要反向预测“喜欢吃苹果？”，所以更准确，也更需要更多的训练。

而人类认为，自己的判断靠的是因果关系，先学习各类事件之间的因果联系，再去推断出某个事件是另一个事件的原因或结果。所以，早期人工智能的方向是模仿人类的思维，去建立因果关系。

可当专家们想用计算机语言描述因果关系时，才发现此路不通——人类自以为严谨的因果关系，可能并不存在。

看过《三体》的读者，都应该对其中哲学家罗素的“农场主假设”有深刻的印象，农场里有一只火鸡科学家，通过长期观察，发布了一个科学规律，每次农场主来，就会有食物，两者之前存在因果联系。结果复活节前，农场主带来的不是食物而是屠刀。

不要以为“把相关性当成因果性”只是普通大众缺乏科学常识导致，我们所认为的因果性，正是站在火鸡科学家的角度，从科学的角度，想要证明两件事之间存在严格的因果几乎是不可能的。

抽烟与肺癌的因果关系，现在医学已经广泛认可，但这只是“认可”，认为抽烟与肺癌存在高度的相关性，而不是“证明两者之间存在因果关系”，因为你无论用什么方法，都无法严格证明。

哲学家大卫·休谟早在300多年前就称之为“因果关系幻觉”，他认为：“我们无从得知因果之间的关系，只能得知某些事物总是会连结在一起，而这些事物在过去的经验里又是从不曾分开过的。”

更糟糕的是，基于经验的因果判断并不是人类独有的能力，比如人工智能学家最喜欢研究的动物——乌鸦。

四、人工智能，从鹦鹉到乌鸦

乌鸦喜欢吃坚果，但它弄不开坚硬的外壳；乌鸦发现汽车可以帮它压碎外壳，可行驶中的汽车又太危险了；乌鸦还观察到，有一样东西可以让汽车停下来——红绿灯。

于是乌鸦建立一个策略：叼着坚果在路边等候，在红灯时，把坚果丢在汽车轮子前，等绿灯能行后，汽车就可以将坚果压碎，再等下一次红灯，它们就可以吃到坚果了。

但我们知道，乌鸦不可能懂“因果律”，做不了数学题，它们只是像人类一样，观察到红绿灯闪烁和汽车的运行，汽车开过与坚果破碎，这两组现象之间存在着相关性。

2010年，人工智能专家约瑟夫·魏兹提出了乌鸦与鹦鹉的比喻，来描述人工智能未来的方向。他认为，鹦鹉是一种高度训练的动物，它们可以通过反复模仿来掌握特定的技能，但是在新的情境下，它们就无法产生新的解决方案；而乌鸦是一种具有高度自适应和学习能力的动物，可以通过试错的方式不断学习，从而能够在各种不同的情境下灵活应对。

于是人工智能科学家们产生了一个共识：相关性就是因果性，是一套描述因果关系的语言体系，它的单位是“概率”，因果关系不是0和100%，而是15%、60%、99%，等等。

于是就有了贝叶斯算法，有了声音模拟信号变成数字信号，才有了手机通信，才有了邮件反垃圾系统，以及更复杂的大数据推荐和人工智能算法。

人类之所以自诩“理解因果关系”，恐怕是因为数学，这是人类唯一掌握的建立在严格因果性上的方法，而计算机运作恰恰是基于严格逻辑推理，所以，过去的人工智能专家总是希望能基于这种严格的因果关系实现人工智能。

可偏偏人工智能最终突破的方向，是基于贝叶斯概率的相关性，第一个爆款级人工智能应用ChatGPT最不擅长的就是做数学题，因为数学题的解题步骤和方法通常需要基于因果关系的逻辑推理，而GPT模型在生成文本时只是一种概率判断，你变着法子问它同一个问题，它可能有十种不同的答案，这显然不是数学的思维。

结果，还是概率战胜了逻辑推理，相关性战胜了因果性。

事实上，人类也是擅长概率判断的，只不过，我们通常称之为“经验”。

五、人类也会贝叶斯计算

如果你是一个非常有经验的售货员，面对一位走进店铺的客户，你要时刻不停地根据客户的举动，判断客户的成交概率，才能决定花多长时间去向客户推销，有经验的销售员从不会干巴巴地介绍产品，而是进一步询问客户的需求，选相应的推销重点，并且决定给出多大的折扣把客户拿下。

你判断客户成交概率的过程，与人工智能猜下一个单词的贝叶斯算法，其实是一回事。

想象一下，一位中年男性走进你的店，你首先根据经验知道，所有进店的中年男性，有20%会买东西——这就是贝叶斯算法中的“先验概率”。

你观察到，他在店里看了一圈，超过10分钟以上，此时你开始把成交概率修正到29%，并开始主动询问。

你是如何修正成交概率的呢？实际上就是贝叶斯计算：