JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
Back to the library
数学 1933

概率论的基本概念(Grundbegriffe der Wahrscheinlichkeitsrechnung)

安德雷·柯尔莫哥洛夫

概率不过是测度:几条公理,便让偶然成为严密的数学。

Choose your version
In depth · the introduction

某件事的机会有多大?两百年来,这个问题始终没有一个干净的答案——直到柯尔莫哥洛夫注意到:概率,不过是一种度量的方式,就像面积,或者重量。

核心想法

想象「所有可能发生的事」组成的那个集合——骰子能落到的每一面、粒子能走的每一条路径。把这整个集合叫作 E。一个「事件」,不过是 E 的一块:「骰子掷出偶数」就是其中的 {2, 4, 6} 这一块。柯尔莫哥洛夫的洞见是:一个事件的概率,其行为恰恰就像那一块的大小。

于是他写下了寥寥几条简单的规则。没有哪个概率是负的。E 中某件事发生的概率,恰恰是 1——整体就是整体。而若两个事件不可能同时发生,那么「二者之一发生」的机会,就是它们各自机会的相加。从这几条规则出发——再加上一条用来处理无穷多个事件的规则——概率的每一条定律都随之而来。他把偶然变成了度量的一个分支,其严密不亚于几何。

它是如何诞生的

到了 1900 年,概率成了数学心脏地带的一桩丑闻:赌徒与物理学家天天在用它,它也明明奏效,可没有人能精确地说出「概率」究竟是什么,而种种精巧的悖论又层出不穷。大卫·希尔伯特在列举新世纪诸大未解难题时,把它列为第六问题:为概率奠定严密的、公理化的根基。

工具却从一个意想不到的地方到来。亨利·勒贝格建立了一套强有力的新理论,去「测量」复杂集合的大小;而莫里斯·弗雷歇又剥去了它几何的外衣,使它能去测量任何东西。年轻的苏联数学家安德雷·柯尔莫哥洛夫看出:概率,不过是乔装打扮的测度。1933 年,他用德文出版了一本薄薄的、仅 62 页的书,把这一等同关系做得精确无比。他是第一个明白宣告的人:概率论,是测度论的一部分。

它为何重要

在这本书之前,概率中那些深刻的结论难以令人信任,因为它们脚下的地基含混不清。在那之后,每一条定理都立在与其余数学同样牢靠的根基上,而勒贝格积分的整套工具也一并免费随行。它还驯服了无限:柯尔莫哥洛夫展示了如何给「一条永远描画下去的随机曲线」这类东西赋予精确的概率——正是这一点,使现代的随机过程理论成为可能,并随之托起了现代金融、统计与机器学习。他也十分谨慎:他公开把功劳归于勒贝格、弗雷歇等人,并承认他的公理对「一个概率究竟意味着什么」只字未提。

一个可以想象的画面

想象把恰好一升水,浇在一张地图上。每一片区域的「概率」,不过就是落在它上面的水量。没有哪片区域能盛下负的水;整张地图盛着那满满的一升(这就是 P(E) = 1);而两片互不重叠的区域上的水,就是各自水量的相加。条件概率,则是在问:落在这个县上的水里,有几分坐落在这座镇上?这便是柯尔莫哥洛夫想法的全部——概率是你拿来度量的液体,而他的公理,不过是水本就遵守的那些规则。

一个可交互的概率空间:一个 6×6 的网格,列出两颗公平骰子的 36 个等可能结果。滑块选择有多少结果属于事件 A,这些格子被染色,并显示 P(A) = |A|/36,其余构成补集,使二者之和为 1。第二块面板绘出 600 次确定性试验中 A 的运行相对频率,它向 P(A) 收敛。

它的位置

概率始于赌桌——1650 年代的帕斯卡与费马,随后是雅各布·伯努利的大数定律,与拉普拉斯宏大的综合。但它的根基,几个世纪以来始终摇摇晃晃。柯尔莫哥洛夫的这本书是那道转轴:之前是古典概率,之后是测度论式的概率。这一框架径直伸入现代世界——伸入香农的信息论(本馆亦有收录)、伸入为期权定价的随机游走,以及今日人工智能背后的那些收敛保证。相竞的根基也曾被提出——冯·米泽斯的频率、德·菲内蒂的主观赌注——但如今每本教科书开篇所用的,是柯尔莫哥洛夫的三元组 (E, F, P)。

The original document
Original source text

前言——测度与概率

A. Kolmogorov · Foundations of the Theory of Probability · 1933 · Preface (dated Easter 1933, Moscow)
After Lebesgue's investigations, the analogy between the measure of a set and the probability of an event, as well as between the integral of a function and the mathematical expectation of a random variable, was clear.
This analogy could be extended further; for example, many properties of independent random variables are completely analogous to corresponding properties of orthogonal functions. But in order to base probability theory on this analogy, one still needed to liberate the theory of measure and integration from the geometric elements still in the foreground with Lebesgue. This liberation was accomplished by Fréchet.

公理(第一章)

Chapter I · Elementary Theory of Probability · §1 Axioms
Let E be a set of elements, which we shall call elementary events, and F a set of subsets of E; the elements of the set F will be called random events. Kolmogorov begins with five axioms concerning E and F:
I. F is a field of sets.
II. F contains the set E.
III. To each set A from F is assigned a non-negative real number P(A). This number P(A) is called the probability of the event A.
IV. P(E) = 1.
V. If A and B are disjoint, then P(A + B) = P(A) + P(B).
A system of sets F, together with a definite assignment of numbers P(A) satisfying Axioms I–V, is called a field of probability.

连续性公理(第二章)

Chapter II · Infinite Probability Fields · §1 Axiom of Continuity
VI. For a decreasing sequence of events A₁ ⊇ A₂ ⊇ ⋯ of F, for which the product (intersection) of all the Aₙ is empty, the following equation holds: lim P(Aₙ) = 0 as n → ∞.
This is the axiom of continuity. Given the first five axioms, it is equivalent to countable additivity. Kolmogorov is candid about its status:
Since the new axiom is essential only for infinite fields of probability, it is hardly possible to explain its empirical meaning … Infinite fields of probability occur only as idealized models of real random processes. This understood, we limit ourselves arbitrarily to models that satisfy Axiom VI.
[ … ]
Kolmogorov · Moscow · Easter 1933