JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
Back to the library
数学 1913

以《叶甫盖尼·奥涅金》文本为例,关于链中样本之关联的一项统计考察

安德烈·安德烈耶维奇·马尔可夫

即便是环环相扣、彼此牵连的事件,长远来看也会归于一种稳定的格局——这就是第一条马尔可夫链。

Choose your version
In depth · the introduction

为了在一场关于概率的争论里取胜,一位俄国数学家数了一首心爱长诗里的元音和辅音——却由此发明了现代科学中最有用的思想之一。

把这个想法拆开看

经典概率论是为独立事件而建的——比如掷硬币,每一掷都「忘掉」上一掷。马尔可夫问的是:如果事件彼此相连,下一步要倚仗刚刚发生的事,那会怎样?他把这样的序列叫作「链」,只有一条规则:未来只取决于当前的状态,而不取决于整段历史。

他得出的结论出人意料:即便各步如此纠缠在一起,长远来看仍是井然有序的。链在每个状态上停留的时间比例,会稳定到一组固定的数值——平稳分布——无论你从哪里出发。相依,并不意味着混乱。

它从哪里来

1900 年代初,马尔可夫与同行数学家帕维尔·涅克拉索夫陷入一场论战。涅克拉索夫坚称,那条著名的大数定律——平均值之所以可靠的原因——只在事件相互独立时才成立,甚至暗示这与自由意志有某种关系。马尔可夫决意证明他错了。

他需要一个相依事件的真实例子,于是伸手抓向了文学:普希金《叶甫盖尼·奥涅金》开头的两万个字母。他把每个字母只分作两类——元音或辅音——再数一数每一类后面跟着另一类的频率。元音很少跟着元音;辅音后面则常常是元音。这些字母显然是相依的——可元音的总体比例却完美地稳定,恰如他的理论所预言。

它为何重要

马尔可夫证明了:统计的规律性,并不需要独立性。这把概率论解放出来,去描述真实世界——在那里,几乎没有什么是真正独立的:天气接着天气,词接着词,今天的股价倚着昨天的。他为赢一场争论而造出的那条链,结果竟成了应对惊人之广的各类问题的正确工具,并以他的名字流传至今。

一个能在脑中描画的比方

把天气想成晴、雨两个状态,明天倚着今天:晴天后面往往又是晴天,下雨则常常打断连晴。跟踪它一整年,会浮现出一种奇特的秩序——晴天所占的比例,会稳定到一个固定的百分比,它只取决于那些「后接」的概率,而与这一年恰好是不是从晴天开始无关。那个稳定下来的百分比,就是平稳分布。在下方,用元音与辅音亲手试试。

一张可交互的图,显示沿文本前进时当前字母是元音的概率。两条曲线从两个极端出发——一条从全元音,一条从全辅音——都稳定到同一条约 0.43 的虚线上。两个滑块让你改变元音后接元音的频率、以及辅音后接元音的频率;那条稳定线会随之移动。

它在知识谱系里的位置

马尔可夫链让概率论有了处理相连事件的办法,接续了大数定律(贝叶斯与伯努利家族的遗产,见 bayes-1763)止步之处。一代人之后,它成了信息论的骨干——香农把语言本身建模为一条马尔可夫链(见 shannon-1948)——而今天,从谷歌最初的搜索排序,到预测你下一个词的 AI(见 transformer-2017),其中都住着它。

The original document
Original source text
A. A. Markov · read to the Imperial Academy of Sciences, St. Petersburg, 23 January 1913
The data
Markov took the first 20,000 letters of Pushkin's novel-in-verse Eugene Onegin — the whole of Chapter One and sixteen stanzas of Chapter Two — and classified every letter into just two states: vowel or consonant. He counted 8,638 vowels and 11,362 consonants, so the chance that a letter is a vowel is about 0.43, and a consonant about 0.57.
The dependence
He then asked the new question: does the kind of letter depend on the one before it? Tallying the pairs, he found that a vowel is followed by a vowel only about 0.13 of the time, but a consonant is followed by a vowel about 0.66 of the time. The letters are clearly not independent — vowels and consonants tend to alternate.
Yet, Markov showed, such a dependent sequence still obeys a law of large numbers: the long-run frequency settles down to a definite value (here, the 0.43 vowel rate), and that value is fixed by the transition probabilities — the stationary distribution of the chain. Run the widget below to watch it converge.
[ … ]
The paper develops this with the second-chapter counts as a check and derives the variance of the vowel frequency for dependent samples — extending the classical theory, built for independent trials, to chains of linked events. The full text is at the source below.
St. Petersburg · 1913