首页科技快讯用信息论的视角，重新认识这个世界

用信息论的视角，重新认识这个世界

来源：晰数塔互联网快讯时间：2024年12月31日 09:14

那天中午，我在知乎上看到一个有趣的问题：

把一篇英语文章的所有aeiou替换成t，它还有可能被完全破译吗？

我翻阅了许多回答，有的列举了tt、ttt、tttt...这样的例子、有的则一本正经地胡说八道、还有人干脆把问题丢给大模型解决....

我觉得这本质上是一个信息论的问题。当我们把所有元音替换成't'后，剩余的信息是否足够支撑我们还原原文？英语本身就有很高的冗余性，比如语法结构、词语搭配等都能提供大量上下文信息。因此，在长文本中，这种还原应该是可行的。关键在于，这种替换究竟损失了多少有效信息，剩下的部分是否还足以支撑我们的理解和还原。

说到信息论，我与它的联系大概是大学选过的一门课，叫《多媒体技术》。选课之前，我天真地以为这门课会教我如何用PS，如何剪视频，如何做PPT。因为从小就在说的“多媒体教育”，感觉就是通过ppt来上课。还有“多媒体教室”，就是多了个投影，所以我一直以为这就是“多媒体”。我选它的原因也很简单，我真的不会用PS，我想学学。而且这门课应该比较简单。

上课之后：奈奎斯特定理、信息熵、zigzag、JPEG图像压缩原理...

我以为的课设：剪一个视频。

实际上的课设：

就这么一门和我想象大相径庭的课，我现在却觉得是我学过最有用的一门课。因为“信息”无处不在。你看的新闻是信息，你与他人的交流是信息，甚至你设计的产品界面也在给用户传递信息。

尤其是在当下，信息生产的成本急剧降低，各种公众号...一个事件可能会被上百个号重复报道。此外，AI领域的进展也是日新月异。相比之下，我们就像大海中的小船，随时可能被信息淹没。接受吧，脑子好像又处理不过来；不接受吧，又怕错过了什么。而信息论，正是帮助我们找到理解这些信息的角度，以及制定获取信息策略的工具。

说远了，我去简单复习了一下信息论的基础知识，也分享给大家。

从生活中理解信息

最开始写这篇文章的时候，我从定义和公式的角度介绍信息、信息熵、自信息这些概念...但发现太专业了，不适合阅读。所以我打算放弃那些专业的知识，从一个简单的游戏理解信息论。这种直观理解对于非专业人士来说更为重要。

首先，信息是消除不确定性的。

假设我心里想了一个1到100的数字，请你来猜。在没有任何提示的情况下，这就是一个完全不确定的系统 —— 每个数字的可能性都是相等的。

如果我告诉你：“今天天气不错，我觉得等会我们可以出去玩，顺便去吃个火锅”。

这句话你会发现对你猜测毫无作用。

而如果我告诉你：“这个数字大于50”。你的猜测范围就减少了一半，然后你猜了个75。

我继续说：“这个数字的范围在60-70之间”。你的猜测范围进一步缩小，你猜了个63。

我说：“猜对了！”

通过这个简单的游戏，我们就能理解信息论中的几个核心概念：

首先，根据信息论中的定义，信息是用来消除不确定性的。你试图猜我心中想的数字，通过不断的尝试，来降低这个不确定性。直到你猜到我所想的。

自信息：单个事件发生时带来的信息量。这里的事件指的是我给你的提示。其中“这个数字是73”这个事件的自信息就很大，因为它的发生概率很小（1/100）。

信息熵：系统的平均不确定性，当你完全不知道我内心所想的时候，信息熵达到最大。

信息增益：获得这个信息后，系统不确定性减少的程度。它实际上是信息熵的变化量：原来的信息熵减去获得信息后的信息熵。在这个对话中，“60-70之间”能带来的信息增益一定大于“大于50”，因为它帮你排除了更多的干扰。你只需要在10个数里面选一个。而不是50个数。如果我直接告诉你这个数字是63，那么它会将整个游戏的信息熵降为0。因为你已经不需要猜了。

这就是信息的本质：消除不确定性。当你获得的有效信息越多，系统的信息熵就越小，你就越接近信源。

再举个生活中的例子。当你在考虑是否购买一件商品时，每条信息都在帮你消除不确定性：

“这是一件纯棉T恤”（确定了品类和材质）

“价格299元”（确定了价格区间）

“隔壁店同款199元”（这个信息增益很大，可能直接影响你的决策）

很明显，这些概念不仅存在于理论中，更与我们的日常生活密切相关。每当我们需要做决策时，都在不断地收集信息，评估信息的价值，通过获取高信息增益的内容来帮助我们作出更好的选择。希望这两个例子能够让你有一个直观的印象。

现在我们再来看看开头的问题，用刚学到的信息论概念来分析一下。当我们把所有元音都替换成't'时，表面上看是损失了一些信息。但英语文本中其实存在大量的“信息冗余”。比如语法结构（主谓宾的位置）、单词搭配（即使“make a decision”中的元音被替换，我们也大概能猜出来），以及整句话的语境，这些都在帮我们消除不确定性。即使失去了元音信息，其他信息的存在依然能帮助我们很大程度推测出原文。当然，这说的是大部分场景，信息越多，能还原成功的概率越高。

信息论给我们的启示

理解了信息的本质，我们就能以不同视角看待一些问题：

1. 为什么大模型会“胡说八道”？

我经常强调大模型回复质量是跟用户的提问质量密切相关的。

当它在面对高度不确定的问题时，没有足够的信息来降低系统的信息熵。就像你在猜数字时，如果得到的提示太少或者有误导，也可能作出错误的判断。

相比之下，提示词技术这些都是辅助减少信息噪声的方法，核心只有一个，就是让用户如何清晰准确的表达问题。

2. “冗余”的必要性

在信息传递过程中，噪声是不可避免的。就像在电话里说话，可能会遇到信号不好、背景音嘈杂等情况。这时候，如果信息没有任何冗余，一旦受到干扰，就很难还原出原始信息了。

这个问题在内容总结类功能中其实特别明显。很多人让大模型总结文章时，会要求“只给我重点”。结果得到的往往是一堆要点的堆砌。一旦大模型的理解有所误解，就会导致信息失真极为严重。

此外，要点的堆砌虽然信息密度很高，但读起来特别费劲。这就像把文章中的所有废话都删掉，只留下核心观点。表面上看起来很高效，实际上反而增加了读者的理解成本。人类理解信息时需要上下文。那些看似冗余的内容，比如例子、类比、过渡语句，它们就像语言中的语法结构和单词搭配一样，能够帮助我们的大脑更好地处理和吸收信息。当这些必要的冗余被去掉，即使信息都在那里，我们也需要耗费更多精力去理解和连接它们。

3. 信息获取策略

说到如何提高信息获取效率，我的策略很简单：不主动刷新闻。

因为有价值的信息会自然传递。重要的事情总会通过各种渠道传到你耳朵里。即使你不主动去搜集，该知道的总会知道。反而是那些不重要的信息，如果你不去主动获取，它们就会自然消失。

现在AI领域每天都在爆出新模型、新突破。但仔细观察就会发现，真正的突破性进展很少，大部分都是正常的科学研究。对于并不需要专注于科研的人来说，没有必要去刷那么多新闻。

那些真正重要的突破，必然会在多个渠道反复出现，而且会持续发酵。就像GPT-4的发布，它带来的不仅是一个新闻，而是一系列的技术讨论和应用探索。这种持续的信息流才是值得关注的。比如说这几天的Deepseek。

从信息论的角度看，当一个信息通过多个渠道重复出现时，不仅提高了信息的可靠性，更重要的是往往会带来不同的视角和解读。这些差异恰恰能帮助我们更全面地理解这个信息的价值。与其追求信息的全面，不如追求信息的深度。当你对某个领域有足够深的理解时，判断一个新信息的价值往往只需要几秒钟。那些看似错过的信息，很可能对你并不重要；而那些真正重要的信息，一定会以各种形式重复出现在你面前。

在信息爆炸的时代，保持定力比追求全面更重要。让信息自然流动，而不是焦虑地追逐每一个新闻，这可能才是最高效的信息获取策略。

4. 充满包容的沟通

很多时候并不是对方笨，而是因为你们对信息的理解不对等。这让我想起一个很有意思的游戏：Tick Tock。一个双人互动游戏，但它不需要通过服务器联机：两个玩家各自在自己的手机上玩，一个人解谜的同时，另一个人要配合完成某些操作。但关键是两个人并不能看到对方的视角，只能通过其中一方的描述，来让双方理清处境和需求。

这个游戏完美地诠释了信息不对等的本质。当我们觉得“其他人怎么这么笨”的时候，往往不是对方真的笨，而是我们站在已知信息的角度，忽略了对方的信息盲区。就像在游戏中，如果没有跟对方描述清楚你的画面，他就没法给予你帮助。游戏也就永远无法推进。

我们经常吐槽用户使用软件的时候总是“不按套路出牌”。但换个角度想，这不是用户的问题，而是我们在设计时，没有考虑到用户的信息认知水平。我们觉得理所当然的操作流程，对用户来说可能充满了不确定性。

其实大模型的使用就是一个很好的证据。它就像一个没有说明书的产品，即使开发者也不能完全了解它。作为使用者，我们也在不断摸索，各种提示词技术都是试出来的。从更高维度看，我们所有人都是愚蠢的用户。

所以，好的沟通不是简单地传递信息，而是要考虑：对方当前的信息状态是什么，如何通过适当的信息冗余来确保理解，以及如何建立反馈机制，验证信息是否被正确接收。

有时候，我们需要的可能不是更多的解释，而是更多的包容。毕竟，在信息不对等的世界里，我们每个人都在靠着自己的认知摸索前行。

本文来自微信公众号：阿茶的AI之路，作者：起名贼费劲的阿茶