和的變異數與條件化

平均數白白相加；離散程度卻不然

你已經擁有前一級送的一份漂亮、無條件的禮物：期望值的線性。無論 X 與 Y 如何糾纏，E[aX + bY] = a E[X] + b E[Y]——平均數就是相加，不管相依與否。人很容易盼望變異數也一樣，盼望 Var(X + Y) 就只是 Var(X) + Var(Y)。這個盼望在 X 與 Y 互不影響時恰好正確，但只要它們一旦互動就錯了。離散程度不像平均數，它感覺得到兩個變數是否一起動。

為何有別？變異數是由平方建構的，而平方會生出交叉項。從減去平均數的定義出發：Var(X + Y) = E[((X - E[X]) + (Y - E[Y]))^2]。把裡面的平方展開，得到三塊：(X - E[X])^2、(Y - E[Y])^2，以及乘積的兩倍 (X - E[X])(Y - E[Y])。對每一塊取期望值，前兩塊就是 Var(X) 與 Var(Y)——但第三塊正是你兩篇前見過的共變異數的兩倍。平方拒絕忘記兩個偏差是如何排列的。

Var(X + Y) = Var(X) + Var(Y) + 2 Cov(X, Y)

  Cov > 0  ->  sum is MORE spread than the parts alone
  Cov < 0  ->  sum is LESS spread (the two partly cancel)
  Cov = 0  ->  variances simply add

核心公式。2 Cov(X, Y) 這個交叉項就是全部的關鍵；本篇其餘部分都是在仔細解讀它。

交叉項消失之時——以及它換來什麼

若 X 與 Y 獨立，它們的共變異數為零（你上一級證過：獨立迫使偏差乘積平均成零）。交叉項消失，你便回到乾淨的 Var(X + Y) = Var(X) + Var(Y)。不過要誠實說清楚確切條件：只要 Cov(X, Y) = 0 交叉項就消失，而這對僅僅不相關的變數也成立。所以在較弱的零相關假設下變異數就會相加——你不需要完全獨立。這是少數幾處不相關真的夠用的地方，值得記住，因為它較容易驗證。

這個可加性，是你往後在機率裡會一直倚靠的事實背後的引擎。取 n 個獨立、每個變異數為 sigma^2 的同分布變數相加：和的變異數是 n·sigma^2。現在改成取平均——除以 n。用 Var(cX) = c^2 Var(X)，平均的變異數是 (1/n^2)·(n·sigma^2) = sigma^2 / n。平均的離散程度以 1/n 收縮，所以它的標準差以 1 除以 n 的平方根收縮。這個 sigma 除以根號 n 就是著名的標準誤，而這緩慢的平方根衰減，正是為何要把精確度加倍得付出四倍資料量的原因。

一般公式：雙線性扛起重活

那麼許多變數的和、甚至全都相依時呢？兩變數的規則由同樣的平方展開邏輯推廣，而整理它最乾淨的方式是共變異數的雙線性——共變異數在每個位置都是線性的，所以「和的 Cov」就是「Cov 的和」。把它用在 Var(X1 + ... + Xn) = Cov(和, 和)，便拆成所有兩兩共變異數：對角項 Cov(Xi, Xi) = Var(Xi)，再加上每個有序對的非對角項 Cov(Xi, Xj)。因為 Cov 對稱，每個無序對被算了兩次，2 這個係數就是這麼來的。

寫開來，Var(X1 + ... + Xn) 是 n 個個別變異數之和，加上每個相異對 i < j 的 Cov(Xi, Xj) 之和的兩倍。變異數坐在所有配對表格的對角線上；共變異數填滿對角線之外的一切。若所有對恰好都不相關，每個非對角項皆為零，你便回到單純的可加性 Var(X1 + ... + Xn) = Var(X1) + ... + Var(Xn)。否則，戲都在非對角的車流裡。

這個配對計數帶著一個值得吸收的警告。n 項時只有 n 個變異數，卻有約 n^2/2 個共變異數，所以當變數正相關時，交叉項可能完全主宰。把 100 項各自只略微擺動、卻傾向一起下跌的資產堆在一起，投資組合的變異數被那 4950 個共變異數左右的程度，遠勝過那 100 個個別變異數。這正是為何分散投資靠的是低相關或負相關，而非僅僅靠數量多：加入更多正相關的部分不會馴服離散程度，反而可能餵養它。

條件化：在計算平均數之前先拆解它

現在來看一招不同但同樣強大的手法。本梯之前你見過條件期望值：E[X given Y = y] 是在被告知 Y 取值為 y 後 X 的平均數。隨著 y 變化，這是個依賴 y 的數，所以 E[X given Y] 本身是個隨機變數——Y 的函數。全期望公式說，你可以把這些條件平均對 Y 取平均，從而還原 X 的普通平均：E[X] = E[E[X given Y]]。用白話講：在每個可能的世界裡分別算出答案，再依各世界的可能性加權，把那些答案平均起來。

這條全期望公式，是你在條件機率那一級用過的全機率公式在「期望值層級、連續版」的孿生兄弟——同樣的各個擊破精神，從機率提升到平均數。它在「隨機個數的隨機部件」這類問題上大放異彩。設某店一天服務隨機個數 N 位顧客，每位花費的金額隨機、平均 E[X] = 20 元，且與 N 獨立。先條件化於 N：給定 N = n，期望總額是 n·20。所以 E[總額 given N] = 20·N，對 N 取平均得 E[總額] = 20·E[N]。若 E[N] = 50 位顧客，期望日營收是 1000 元——全程不必直接搏鬥總額那團混亂的分布。

挑一個你但願知道的輔助變數 Y——通常選一旦固定就讓 X 變簡單的那個（這裡是顧客數 N）。
把內層條件平均 E[X given Y = y] 當成一個普通、往往很容易的期望值算出來。
把它讀成 Y 的函數，得到隨機變數 E[X given Y]。
對 Y 取平均：E[X] = E[E[X given Y]]。外層平均把你先前擱置的 Y 的不確定性接回來。

拆解變異數：組內加組間

條件化同樣能拆解變異數，但帶著一個真正漂亮的轉折。全變異數公式說 Var(X) = E[Var(X given Y)] + Var(E[X given Y])。兩項，而每一項都在做誠實的工作。第一項 E[Var(X given Y)]，是在 Y 已知後、X 在每個世界內部殘餘離散程度的平均——即使學會了 Y 也消不掉的變異。第二項 Var(E[X given Y])，是條件平均本身隨 Y 變化而擺動的幅度——Y 所能解釋的那部分離散。總不確定性等於「組內未解釋」加上「組間已解釋」。

一幅圖讓它牢牢記住。想像橫跨數個班級的學生考試分數。第一項 E[Var(X given Y)]，是班級內部分數離散程度的平均——同一間教室的孩子仍各不相同。第二項 Var(E[X given Y])，是各班平均彼此相差多少——班際的落差。分數的總變異恰好是這兩者相加，不多也不少。這個「組內加組間」的分解，是變異數分析的骨幹，也是統計裡每一個「這個因子能解釋多少？」問題的脊樑。

本級的去向

退一步，看看本級建了什麼。你學會藉聯合、邊際與條件分布同時處理多個變數；你用共變異數與相關係數量度它們的線性同行程度；你得到了堅實的警告——不相關不等於獨立。最後這篇收束全局：和的變異數精確揭示共變異數在何處咬人，而條件化讓你把任何平均數或變異數拆開再組裝回去。這些不只是要背的恆等式——它們是讓多變數機率變得可計算、而非令人生畏的工具。

這兩個觀念也直直指向梯子的上方。平均的變異數結果 sigma^2 / n，是大數法則的種子——它掌管樣本平均如何安定向真實平均靠攏；也是中央極限定理的種子——它說這個安定是透過常態鐘形展開的；兩者都在數級之後，也都誠實地承認非得有有限變異數才行得通。而條件期望值則在更遠處長成一整套關於預測、以及鞅與隨機過程理論的語言。你帶著離散程度的可加結構，與條件化各個擊破的威力，穩穩在手，離開本級。