通信的数学理论
信息可以用比特来度量——而且即便通过有噪声的信道,也能被无误地传送。
香农找到了度量「信息本身」的办法——用比特——并证明:即便在一条充满噪声、噼啪作响的线路上,你也能把一条消息完美无误地传过去。
把这个想法拆开看
香农的第一个洞见听上去很怪:要用数学处理通信,就别管一条消息「是什么意思」。要紧的,是它有多「出人意料」。一个你本就能猜到的符号,几乎什么都没告诉你;一个出乎意料的,则告诉你很多。他把这一点变成了度量信息的单位——比特,也就是一道「是或否」问题的答案。每一段文字、每一张照片、每一首歌、每一部视频,归根结底,都只是一堆比特。
接着,他证明了两件了不起的事。第一,一条消息在不丢失任何内容的前提下能被压到多小,是有一个硬性地板的——那就是它真正的信息量,不能再小。第二,也更惊人:每一条线路,都有一个诚实的最高速度,只要你保持在它之下,巧妙的额外编码就能让消息几乎零错误地抵达——哪怕穿过噪声。这正是为什么一张划伤的碟仍能播放,而一张来自遥远飞船的照片,也能清晰无比地传回。
它从哪里来
1948 年,克劳德·香农——贝尔实验室一位 32 岁的工程师兼数学家——在公司的技术期刊上发表了一篇长论文。在电话与电报线路的种种实际问题之间,他造出了远为宏大的东西:一套完整的通信数学理论,几乎是一出手就已成形。它甚至引入了「bit(比特,二进制位)」这个词,香农把它的功劳归于同事约翰·图基。这篇论文,一夜之间奠定了一整个领域。
它为何重要
在香农之前,「信息」是个含糊的念头;在他之后,它成了一个有硬性极限、可度量的量。他给了工程师两颗北极星——一条消息最小能被压到多小(它的熵),与一条信道最快能承载多少(它的容量)——并证明:只要低于那道极限,穿过噪声的可靠通信永远是可能的。此后的每一台数字设备,都在追逐这两个数。
意外,就是信息
设想一位朋友给你发天气。在一片天天都晴的沙漠里,「晴」什么都没告诉你——你早就知道。可「下雪了!」却是个惊人的消息,满载信息。香农把这件事说精确了:一条消息越罕见、越出人意料,它携带的比特就越多;越可预测,就越少。在下方亲手调一调概率,看看信息量的指针如何回应。
你在哪里遇见它
你每天都倚赖香农的理论数十次,却毫无察觉。它在你压缩的每一个文件里,在被压得更小的每一张照片、每一首歌里,在弱信号下仍撑得住的每一通电话、每一段视频里,在被弄脏了仍能扫出的每一个二维码里。同样的思想,如今也驱动着机器学习与密码学的一部分——任何需要度量不确定性的地方。
通信的根本问题
The fundamental problem of communication is that of reproducing at one point either exactly or approximately a message selected at another point.
选择,与那个叫「比特」的单位
熵——H = −Σ pᵢ log pᵢ
Quantities of the form H = − Σ pᵢ log pᵢ play a central role in information theory as measures of information, choice and uncertainty.
有噪信道的基本定理
Theorem: Let a source have entropy H bits per symbol and a channel have a capacity C bits per second. Then it is possible to transmit at the average rate C/H symbols per second over the channel with arbitrarily small frequency of errors.