JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
Back to the library
信息论 / 计算机科学 1948

通信的数学理论

克劳德·香农

信息可以用比特来度量——而且即便通过有噪声的信道,也能被无误地传送。

Choose your version
In depth · the introduction

香农找到了度量「信息本身」的办法——用比特——并证明:即便在一条充满噪声、噼啪作响的线路上,你也能把一条消息完美无误地传过去。

把这个想法拆开看

香农的第一个洞见听上去很怪:要用数学处理通信,就别管一条消息「是什么意思」。要紧的,是它有多「出人意料」。一个你本就能猜到的符号,几乎什么都没告诉你;一个出乎意料的,则告诉你很多。他把这一点变成了度量信息的单位——比特,也就是一道「是或否」问题的答案。每一段文字、每一张照片、每一首歌、每一部视频,归根结底,都只是一堆比特。

接着,他证明了两件了不起的事。第一,一条消息在不丢失任何内容的前提下能被压到多小,是有一个硬性地板的——那就是它真正的信息量,不能再小。第二,也更惊人:每一条线路,都有一个诚实的最高速度,只要你保持在它之下,巧妙的额外编码就能让消息几乎零错误地抵达——哪怕穿过噪声。这正是为什么一张划伤的碟仍能播放,而一张来自遥远飞船的照片,也能清晰无比地传回。

它从哪里来

1948 年,克劳德·香农——贝尔实验室一位 32 岁的工程师兼数学家——在公司的技术期刊上发表了一篇长论文。在电话与电报线路的种种实际问题之间,他造出了远为宏大的东西:一套完整的通信数学理论,几乎是一出手就已成形。它甚至引入了「bit(比特,二进制位)」这个词,香农把它的功劳归于同事约翰·图基。这篇论文,一夜之间奠定了一整个领域。

它为何重要

在香农之前,「信息」是个含糊的念头;在他之后,它成了一个有硬性极限、可度量的量。他给了工程师两颗北极星——一条消息最小能被压到多小(它的熵),与一条信道最快能承载多少(它的容量)——并证明:只要低于那道极限,穿过噪声的可靠通信永远是可能的。此后的每一台数字设备,都在追逐这两个数。

意外,就是信息

设想一位朋友给你发天气。在一片天天都晴的沙漠里,「晴」什么都没告诉你——你早就知道。可「下雪了!」却是个惊人的消息,满载信息。香农把这件事说精确了:一条消息越罕见、越出人意料,它携带的比特就越多;越可预测,就越少。在下方亲手调一调概率,看看信息量的指针如何回应。

一个可交互的熵度量器:四个滑块设定每个符号的概率;长条显示各自的概率与意外度(−log₂ p),读数给出熵 H = −Σ pᵢ log₂ pᵢ(比特)——四者等概时最高(2 比特),某一个独大时趋近于零。专家面板另给出上限 log₂n、冗余度与效率。

你在哪里遇见它

你每天都倚赖香农的理论数十次,却毫无察觉。它在你压缩的每一个文件里,在被压得更小的每一张照片、每一首歌里,在弱信号下仍撑得住的每一通电话、每一段视频里,在被弄脏了仍能扫出的每一个二维码里。同样的思想,如今也驱动着机器学习与密码学的一部分——任何需要度量不确定性的地方。

The original document
Original source text

通信的根本问题

C. E. Shannon · The Bell System Technical Journal 27 (1948): 379–423, 623–656
The fundamental problem of communication is that of reproducing at one point either exactly or approximately a message selected at another point.
Frequently the messages have meaning … These semantic aspects of communication are irrelevant to the engineering problem. The significant aspect is that the actual message is one selected from a set of possible messages. The system must be designed to operate for each possible selection, not just the one which will actually be chosen since this is unknown at the time of design.

选择,与那个叫「比特」的单位

If the number of messages in the set is finite then this number or any monotonic function of this number can be regarded as a measure of the information produced when one message is chosen from the set, all choices being equally likely. … The logarithmic measure is more convenient. … The resulting units may be called binary digits, or more briefly bits, a word suggested by J. W. Tukey.

熵——H = −Σ pᵢ log pᵢ

Quantities of the form H = − Σ pᵢ log pᵢ play a central role in information theory as measures of information, choice and uncertainty.
H is largest when the choices are most uncertain — all equally likely — and falls to zero when one outcome is certain. It is, in Shannon's words, a measure of how much “choice” is involved in the selection of a message.

有噪信道的基本定理

Theorem: Let a source have entropy H bits per symbol and a channel have a capacity C bits per second. Then it is possible to transmit at the average rate C/H symbols per second over the channel with arbitrarily small frequency of errors.
Bell Telephone Laboratories · 1948