期望值的線性：那項超能力

這條規則，以及它為何重要

你已經知道期望值是一個隨機變數的長期平均，也剛學過用無意識統計學家法則來對「某一個變數的函數」取平均。現在登場的這條規則，安靜地撐起了應用機率的半壁江山。[[linearity-of-expectation|期望值的線性]]說：對任意隨機變數 X 與 Y、任意常數 a 與 b，都有 E[aX + bY] = a E[X] + b E[Y]。白話說：和的平均等於平均的和，而常數可以直接被提到前面。它看起來樸素到幾乎不值得取一個名字。

這份樸素是一種偽裝。真正驚人的，是那條「缺席」的細則：它並不要求 X 與 Y 互相獨立。它們可以高度相關、彼此糾纏、定義在同一組擲幣上，甚至根本就是同一個變數——而 E[X + Y] 依然等於 E[X] + E[Y]。這就是它之所以是超能力的原因。機率裡多數規則都被一道「獨立性假設」的籬笆圍住，而真實問題偏偏不肯配合；線性卻根本不需要這道籬笆。本篇接下來，你都會在兌現這份自由。

為什麼不需要獨立性

弄清楚這條規則為何如此寬容是有幫助的，因為理由其實很簡單。把底層的樣本空間想成一張「結果清單」，每個結果都帶著一個機率。變數 X 為每個結果指派一個數；Y 也是。新的變數 X + Y，只是逐個結果把這兩個數相加。現在用最老實的方式去算 X + Y 的平均——把每個結果的「合計值」用它的機率加權，全部加起來。

由於加法可以自由地重新分組，那一個大總和就能乾淨地拆成「X 的貢獻之和」加上「Y 的貢獻之和」——而這兩者正好就是 E[X] 與 E[Y]。整個過程中，我們從未過問 X 與 Y 之間有什麼關係；每個結果都把自己的 X 值與 Y 值當成一對固定的數帶在身上，我們也從不需要聯合機率能夠分解成乘積。這就是祕密：線性不過是算術的分配律，逐一結果地施用罷了。獨立性講的是機率「如何相乘」，而我們從頭到尾沒乘過任何東西。

E[X + Y] = sum over outcomes w of  P(w) * ( X(w) + Y(w) )
         = sum  P(w)*X(w)  +  sum  P(w)*Y(w)
         =        E[X]      +        E[Y]

  -- regrouping a sum needs no independence --

  General form:   E[a1*X1 + a2*X2 + ... + an*Xn]
                = a1*E[X1] + a2*E[X2] + ... + an*E[Xn]

線性只是把一個加權總和重新分組而已——獨立性從未介入。

指示變數技巧：把計數變簡單

當線性與一個搭檔觀念結合時，它才真正變成超能力，這個搭檔就是[[indicator-random-variable|指示隨機變數]]。指示變數 I_A 很簡單：事件 A 發生時取 1，不發生時取 0。它的期望值是這門學科裡最溫柔的事實：E[I_A] = 1 × P(A) + 0 × P(非 A) = P(A)。一個指示變數的平均，就是它所指示那件事的機率。正是這座從「機率」通往「期望值」的小橋，讓線性得以施展。

以下是完整的[[indicator-variable-trick|指示變數技巧]]。要求「某種事情發生的期望次數」，就把那個計數寫成一串指示變數的和，每個可能的發生對應一個：N = I_1 + I_2 + ... + I_n。由線性，E[N] = E[I_1] + ... + E[I_n] = P(第 1 次發生) + ... + P(第 n 次發生)。你就把一個困難的計數問題，換成了 n 個容易的機率問題再加總。關鍵是，這些指示變數通常彼此高度相依——而你毫不在意，因為線性根本無視相依。

一個兩秒鐘的例子：擲一顆公正的骰子 60 次，預期會出現幾個六點？令 I_k 在第 k 擲為六點時取 1。每個都有 E[I_k] = 1/6，共有 60 個，所以六點的期望數是 60 × (1/6) = 10。這恰好等於二項分配的平均數 np，但請注意我們從未搬出二項分配的公式或它那一臉嚇人的機率——線性直接就把平均給了我們。即使在「各次試驗並不獨立」、二項公式根本派不上用場的情況下，這個一行的招式照樣管用。

兩個展示作：帽子與生日

經典的帽子對號問題最能展示這份威力。假設 n 個人把帽子丟成一堆，每人再隨機抓回一頂；預期有幾個人會拿到自己的帽子？要追蹤那整團混亂——誰的帽子跑到哪、誰拿到什麼之間的種種相依——是不折不扣的組合惡夢。指示變數技巧卻能從它身旁直接走過去。令 I_k 在第 k 個人拿回自己帽子時取 1。第 k 個人拿到 n 頂帽子中任何一頂的機會都相等，所以 P(拿到自己的) = 1/n，於是 E[I_k] = 1/n。

現在相加並施用線性：拿到自己帽子的人數期望值是 E[I_1 + ... + I_n] = n × (1/n) = 1。平均下來恰好是一個人，無論人群多大——是 10 個人還是一千萬人都一樣。這些指示變數彼此強烈相依（如果其他每個人都拿到自己的帽子，最後一人也必然如此），然而線性毫髮無傷地穿越而過。試著用列舉排列的方式來得到這個答案，你就會體會到這條規則省下了多少苦工。

同一台機器也能破解「生日相同對數」的期望值。著名的生日問題通常問的是「至少有一對相同」的機率，那需要用補集與一串分數連乘。但「相同生日對數」的期望值卻是一行就解：n 個人之間有 n(n-1)/2 對，每對相同的機率是 1/365，所以由線性，相同對數的期望值是 n(n-1)/2 × (1/365)。當 n = 23 時，約為 0.69 對——穩穩地大於零，這正是為什麼「兩人同生日」比一般人猜的更容易發生。線性把令人生畏的組合學變成了算術。

界限：線性到此為止

對「適用範圍」保持誠實，才能讓這項超能力不至於走火。線性管的是「和的平均」，但它對「和的離散程度」什麼也沒直接說。和的變異數一般而言不等於各變異數之和：Var(X + Y) = Var(X) + Var(Y) + 2 Cov(X, Y)。多出來的那個共變異數項，衡量的是 X 與 Y 如何一起移動，唯有當它們不相關時它才消失。所以一旦你從「平均」踏進「變動性」，相依性就會轟然回歸、必須被尊重——這與 E[X + Y] 那個無憂無慮的世界形成鮮明對比。

兩個最後的提醒讓全貌更完整。第一，線性需要各個期望值「確實存在」；對一個重尾、平均為無窮或根本無定義的變數（柯西分配是標準的警世故事），這條規則根本沒有有限的東西可加。第二，別把「期望值的線性」誤當成「變數彼此獨立」這個強得多的主張——記得「不相關」連「獨立」都推不出來，遑論反過來。線性是那種罕見而美麗的工具：它幾乎什麼都不要求，卻回報甚豐；只要把它留在「平均」與「和」這塊它自己的地盤上，它就會在你往後整個機率學習中持續為你效力。