JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

期望值的線性:那項超能力

整個機率論裡最有用的一個事實:和的期望值等於各期望值之和——永遠成立,即使各部分彼此糾纏、互相依賴也一樣。本篇帶你看懂它為什麼成立,以及它如何把嚇人的難題化成一行就解完的答案。

這條規則,以及它為何重要

你已經知道期望值是一個隨機變數的長期平均,也剛學過用無意識統計學家法則來對「某一個變數的函數」取平均。現在登場的這條規則,安靜地撐起了應用機率的半壁江山。[[linearity-of-expectation|期望值的線性]]說:對任意隨機變數 X 與 Y、任意常數 a 與 b,都有 E[aX + bY] = a E[X] + b E[Y]。白話說:和的平均等於平均的和,而常數可以直接被提到前面。它看起來樸素到幾乎不值得取一個名字。

這份樸素是一種偽裝。真正驚人的,是那條「缺席」的細則:它並不要求 X 與 Y 互相獨立。它們可以高度相關、彼此糾纏、定義在同一組擲幣上,甚至根本就是同一個變數——而 E[X + Y] 依然等於 E[X] + E[Y]。這就是它之所以是超能力的原因。機率裡多數規則都被一道「獨立性假設」的籬笆圍住,而真實問題偏偏不肯配合;線性卻根本不需要這道籬笆。本篇接下來,你都會在兌現這份自由。

為什麼不需要獨立性

弄清楚這條規則為何如此寬容是有幫助的,因為理由其實很簡單。把底層的樣本空間想成一張「結果清單」,每個結果都帶著一個機率。變數 X 為每個結果指派一個數;Y 也是。新的變數 X + Y,只是逐個結果把這兩個數相加。現在用最老實的方式去算 X + Y 的平均——把每個結果的「合計值」用它的機率加權,全部加起來。

由於加法可以自由地重新分組,那一個大總和就能乾淨地拆成「X 的貢獻之和」加上「Y 的貢獻之和」——而這兩者正好就是 E[X] 與 E[Y]。整個過程中,我們從未過問 X 與 Y 之間有什麼關係;每個結果都把自己的 X 值與 Y 值當成一對固定的數帶在身上,我們也從不需要聯合機率能夠分解成乘積。這就是祕密:線性不過是算術的分配律,逐一結果地施用罷了。獨立性講的是機率「如何相乘」,而我們從頭到尾沒乘過任何東西。

E[X + Y] = sum over outcomes w of  P(w) * ( X(w) + Y(w) )
         = sum  P(w)*X(w)  +  sum  P(w)*Y(w)
         =        E[X]      +        E[Y]

  -- regrouping a sum needs no independence --

  General form:   E[a1*X1 + a2*X2 + ... + an*Xn]
                = a1*E[X1] + a2*E[X2] + ... + an*E[Xn]
線性只是把一個加權總和重新分組而已——獨立性從未介入。

指示變數技巧:把計數變簡單

當線性與一個搭檔觀念結合時,它才真正變成超能力,這個搭檔就是[[indicator-random-variable|指示隨機變數]]。指示變數 I_A 很簡單:事件 A 發生時取 1,不發生時取 0。它的期望值是這門學科裡最溫柔的事實:E[I_A] = 1 × P(A) + 0 × P(非 A) = P(A)。一個指示變數的平均,就是它所指示那件事的機率。正是這座從「機率」通往「期望值」的小橋,讓線性得以施展。

以下是完整的[[indicator-variable-trick|指示變數技巧]]。要求「某種事情發生的期望次數」,就把那個計數寫成一串指示變數的和,每個可能的發生對應一個:N = I_1 + I_2 + ... + I_n。由線性,E[N] = E[I_1] + ... + E[I_n] = P(第 1 次發生) + ... + P(第 n 次發生)。你就把一個困難的計數問題,換成了 n 個容易的機率問題再加總。關鍵是,這些指示變數通常彼此高度相依——而你毫不在意,因為線性根本無視相依。

一個兩秒鐘的例子:擲一顆公正的骰子 60 次,預期會出現幾個六點?令 I_k 在第 k 擲為六點時取 1。每個都有 E[I_k] = 1/6,共有 60 個,所以六點的期望數是 60 × (1/6) = 10。這恰好等於二項分配的平均數 np,但請注意我們從未搬出二項分配的公式或它那一臉嚇人的機率——線性直接就把平均給了我們。即使在「各次試驗並不獨立」、二項公式根本派不上用場的情況下,這個一行的招式照樣管用。

兩個展示作:帽子與生日

經典的帽子對號問題最能展示這份威力。假設 n 個人把帽子丟成一堆,每人再隨機抓回一頂;預期有幾個人會拿到自己的帽子?要追蹤那整團混亂——誰的帽子跑到哪、誰拿到什麼之間的種種相依——是不折不扣的組合惡夢。指示變數技巧卻能從它身旁直接走過去。令 I_k 在第 k 個人拿回自己帽子時取 1。第 k 個人拿到 n 頂帽子中任何一頂的機會都相等,所以 P(拿到自己的) = 1/n,於是 E[I_k] = 1/n。

現在相加並施用線性:拿到自己帽子的人數期望值是 E[I_1 + ... + I_n] = n × (1/n) = 1。平均下來恰好是一個人,無論人群多大——是 10 個人還是一千萬人都一樣。這些指示變數彼此強烈相依(如果其他每個人都拿到自己的帽子,最後一人也必然如此),然而線性毫髮無傷地穿越而過。試著用列舉排列的方式來得到這個答案,你就會體會到這條規則省下了多少苦工。

同一台機器也能破解「生日相同對數」的期望值。著名的生日問題通常問的是「至少有一對相同」的機率,那需要用補集與一串分數連乘。但「相同生日對數」的期望值卻是一行就解:n 個人之間有 n(n-1)/2 對,每對相同的機率是 1/365,所以由線性,相同對數的期望值是 n(n-1)/2 × (1/365)。當 n = 23 時,約為 0.69 對——穩穩地大於零,這正是為什麼「兩人同生日」比一般人猜的更容易發生。線性把令人生畏的組合學變成了算術。

界限:線性到此為止

對「適用範圍」保持誠實,才能讓這項超能力不至於走火。線性管的是「和的平均」,但它對「和的離散程度」什麼也沒直接說。和的變異數一般而言等於各變異數之和:Var(X + Y) = Var(X) + Var(Y) + 2 Cov(X, Y)。多出來的那個共變異數項,衡量的是 X 與 Y 如何一起移動,唯有當它們不相關時它才消失。所以一旦你從「平均」踏進「變動性」,相依性就會轟然回歸、必須被尊重——這與 E[X + Y] 那個無憂無慮的世界形成鮮明對比。

兩個最後的提醒讓全貌更完整。第一,線性需要各個期望值「確實存在」;對一個重尾、平均為無窮或根本無定義的變數(柯西分配是標準的警世故事),這條規則根本沒有有限的東西可加。第二,別把「期望值的線性」誤當成「變數彼此獨立」這個強得多的主張——記得「不相關」連「獨立」都推不出來,遑論反過來。線性是那種罕見而美麗的工具:它幾乎什麼都不要求,卻回報甚豐;只要把它留在「平均」與「和」這塊它自己的地盤上,它就會在你往後整個機率學習中持續為你效力。