以《叶甫盖尼·奥涅金》文本为例,关于链中样本之关联的一项统计考察
即便是环环相扣、彼此牵连的事件,长远来看也会归于一种稳定的格局——这就是第一条马尔可夫链。
为了在一场关于概率的争论里取胜,一位俄国数学家数了一首心爱长诗里的元音和辅音——却由此发明了现代科学中最有用的思想之一。
把这个想法拆开看
经典概率论是为独立事件而建的——比如掷硬币,每一掷都「忘掉」上一掷。马尔可夫问的是:如果事件彼此相连,下一步要倚仗刚刚发生的事,那会怎样?他把这样的序列叫作「链」,只有一条规则:未来只取决于当前的状态,而不取决于整段历史。
他得出的结论出人意料:即便各步如此纠缠在一起,长远来看仍是井然有序的。链在每个状态上停留的时间比例,会稳定到一组固定的数值——平稳分布——无论你从哪里出发。相依,并不意味着混乱。
它从哪里来
1900 年代初,马尔可夫与同行数学家帕维尔·涅克拉索夫陷入一场论战。涅克拉索夫坚称,那条著名的大数定律——平均值之所以可靠的原因——只在事件相互独立时才成立,甚至暗示这与自由意志有某种关系。马尔可夫决意证明他错了。
他需要一个相依事件的真实例子,于是伸手抓向了文学:普希金《叶甫盖尼·奥涅金》开头的两万个字母。他把每个字母只分作两类——元音或辅音——再数一数每一类后面跟着另一类的频率。元音很少跟着元音;辅音后面则常常是元音。这些字母显然是相依的——可元音的总体比例却完美地稳定,恰如他的理论所预言。
它为何重要
马尔可夫证明了:统计的规律性,并不需要独立性。这把概率论解放出来,去描述真实世界——在那里,几乎没有什么是真正独立的:天气接着天气,词接着词,今天的股价倚着昨天的。他为赢一场争论而造出的那条链,结果竟成了应对惊人之广的各类问题的正确工具,并以他的名字流传至今。
一个能在脑中描画的比方
把天气想成晴、雨两个状态,明天倚着今天:晴天后面往往又是晴天,下雨则常常打断连晴。跟踪它一整年,会浮现出一种奇特的秩序——晴天所占的比例,会稳定到一个固定的百分比,它只取决于那些「后接」的概率,而与这一年恰好是不是从晴天开始无关。那个稳定下来的百分比,就是平稳分布。在下方,用元音与辅音亲手试试。
它在知识谱系里的位置
马尔可夫链让概率论有了处理相连事件的办法,接续了大数定律(贝叶斯与伯努利家族的遗产,见 bayes-1763)止步之处。一代人之后,它成了信息论的骨干——香农把语言本身建模为一条马尔可夫链(见 shannon-1948)——而今天,从谷歌最初的搜索排序,到预测你下一个词的 AI(见 transformer-2017),其中都住着它。