JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

和的變異數與條件化

把隨機變數相加,對平均數很容易,對離散程度卻很微妙——那個不能忽略的交叉項。我們先用共變異數拼出和的變異數,再學會藉由「先條件化於將得知的事」來拆解任何平均數或變異數。

平均數白白相加;離散程度卻不然

你已經擁有前一級送的一份漂亮、無條件的禮物:期望值的線性。無論 X 與 Y 如何糾纏,E[aX + bY] = a E[X] + b E[Y]——平均數就是相加,不管相依與否。人很容易盼望變異數也一樣,盼望 Var(X + Y) 就只是 Var(X) + Var(Y)。這個盼望在 X 與 Y 互不影響時恰好正確,但只要它們一旦互動就錯了。離散程度不像平均數,它感覺得到兩個變數是否一起動。

為何有別?變異數是由平方建構的,而平方會生出交叉項。從減去平均數的定義出發:Var(X + Y) = E[((X - E[X]) + (Y - E[Y]))^2]。把裡面的平方展開,得到三塊:(X - E[X])^2、(Y - E[Y])^2,以及乘積的兩倍 (X - E[X])(Y - E[Y])。對每一塊取期望值,前兩塊就是 Var(X) 與 Var(Y)——但第三塊正是你兩篇前見過的共變異數的兩倍。平方拒絕忘記兩個偏差是如何排列的。

Var(X + Y) = Var(X) + Var(Y) + 2 Cov(X, Y)

  Cov > 0  ->  sum is MORE spread than the parts alone
  Cov < 0  ->  sum is LESS spread (the two partly cancel)
  Cov = 0  ->  variances simply add
核心公式。2 Cov(X, Y) 這個交叉項就是全部的關鍵;本篇其餘部分都是在仔細解讀它。

交叉項消失之時——以及它換來什麼

若 X 與 Y 獨立,它們的共變異數為零(你上一級證過:獨立迫使偏差乘積平均成零)。交叉項消失,你便回到乾淨的 Var(X + Y) = Var(X) + Var(Y)。不過要誠實說清楚確切條件:只要 Cov(X, Y) = 0 交叉項就消失,而這對僅僅不相關的變數也成立。所以在較弱的零相關假設下變異數就會相加——你不需要完全獨立。這是少數幾處不相關真的夠用的地方,值得記住,因為它較容易驗證。

這個可加性,是你往後在機率裡會一直倚靠的事實背後的引擎。取 n 個獨立、每個變異數為 sigma^2 的同分布變數相加:和的變異數是 n·sigma^2。現在改成取平均——除以 n。用 Var(cX) = c^2 Var(X),平均的變異數是 (1/n^2)·(n·sigma^2) = sigma^2 / n。平均的離散程度以 1/n 收縮,所以它的標準差以 1 除以 n 的平方根收縮。這個 sigma 除以根號 n 就是著名的標準誤,而這緩慢的平方根衰減,正是為何要把精確度加倍得付出四倍資料量的原因。

一般公式:雙線性扛起重活

那麼許多變數的和、甚至全都相依時呢?兩變數的規則由同樣的平方展開邏輯推廣,而整理它最乾淨的方式是共變異數的雙線性——共變異數在每個位置都是線性的,所以「和的 Cov」就是「Cov 的和」。把它用在 Var(X1 + ... + Xn) = Cov(和, 和),便拆成所有兩兩共變異數:對角項 Cov(Xi, Xi) = Var(Xi),再加上每個有序對的非對角項 Cov(Xi, Xj)。因為 Cov 對稱,每個無序對被算了兩次,2 這個係數就是這麼來的。

寫開來,Var(X1 + ... + Xn) 是 n 個個別變異數之和,加上每個相異對 i < j 的 Cov(Xi, Xj) 之和的兩倍。變異數坐在所有配對表格的對角線上;共變異數填滿對角線之外的一切。若所有對恰好都不相關,每個非對角項皆為零,你便回到單純的可加性 Var(X1 + ... + Xn) = Var(X1) + ... + Var(Xn)。否則,戲都在非對角的車流裡。

這個配對計數帶著一個值得吸收的警告。n 項時只有 n 個變異數,卻有約 n^2/2 個共變異數,所以當變數正相關時,交叉項可能完全主宰。把 100 項各自只略微擺動、卻傾向一起下跌的資產堆在一起,投資組合的變異數被那 4950 個共變異數左右的程度,遠勝過那 100 個個別變異數。這正是為何分散投資靠的是低相關或負相關,而非僅僅靠數量多:加入更多正相關的部分不會馴服離散程度,反而可能餵養它。

條件化:在計算平均數之前先拆解它

現在來看一招不同但同樣強大的手法。本梯之前你見過條件期望值:E[X given Y = y] 是在被告知 Y 取值為 y 後 X 的平均數。隨著 y 變化,這是個依賴 y 的數,所以 E[X given Y] 本身是個隨機變數——Y 的函數。全期望公式說,你可以把這些條件平均對 Y 取平均,從而還原 X 的普通平均:E[X] = E[E[X given Y]]。用白話講:在每個可能的世界裡分別算出答案,再依各世界的可能性加權,把那些答案平均起來。

這條全期望公式,是你在條件機率那一級用過的全機率公式在「期望值層級、連續版」的孿生兄弟——同樣的各個擊破精神,從機率提升到平均數。它在「隨機個數的隨機部件」這類問題上大放異彩。設某店一天服務隨機個數 N 位顧客,每位花費的金額隨機、平均 E[X] = 20 元,且與 N 獨立。先條件化於 N:給定 N = n,期望總額是 n·20。所以 E[總額 given N] = 20·N,對 N 取平均得 E[總額] = 20·E[N]。若 E[N] = 50 位顧客,期望日營收是 1000 元——全程不必直接搏鬥總額那團混亂的分布。

  1. 挑一個你但願知道的輔助變數 Y——通常選一旦固定就讓 X 變簡單的那個(這裡是顧客數 N)。
  2. 把內層條件平均 E[X given Y = y] 當成一個普通、往往很容易的期望值算出來。
  3. 把它讀成 Y 的函數,得到隨機變數 E[X given Y]。
  4. 對 Y 取平均:E[X] = E[E[X given Y]]。外層平均把你先前擱置的 Y 的不確定性接回來。

拆解變異數:組內加組間

條件化同樣能拆解變異數,但帶著一個真正漂亮的轉折。全變異數公式說 Var(X) = E[Var(X given Y)] + Var(E[X given Y])。兩項,而每一項都在做誠實的工作。第一項 E[Var(X given Y)],是在 Y 已知後、X 在每個世界內部殘餘離散程度的平均——即使學會了 Y 也消不掉的變異。第二項 Var(E[X given Y]),是條件平均本身隨 Y 變化而擺動的幅度——Y 所能解釋的那部分離散。總不確定性等於「組內未解釋」加上「組間已解釋」。

一幅圖讓它牢牢記住。想像橫跨數個班級的學生考試分數。第一項 E[Var(X given Y)],是班級內部分數離散程度的平均——同一間教室的孩子仍各不相同。第二項 Var(E[X given Y]),是各班平均彼此相差多少——班際的落差。分數的總變異恰好是這兩者相加,不多也不少。這個「組內加組間」的分解,是變異數分析的骨幹,也是統計裡每一個「這個因子能解釋多少?」問題的脊樑。

本級的去向

退一步,看看本級建了什麼。你學會藉聯合、邊際與條件分布同時處理多個變數;你用共變異數與相關係數量度它們的線性同行程度;你得到了堅實的警告——不相關不等於獨立。最後這篇收束全局:和的變異數精確揭示共變異數在何處咬人,而條件化讓你把任何平均數或變異數拆開再組裝回去。這些不只是要背的恆等式——它們是讓多變數機率變得可計算、而非令人生畏的工具。

這兩個觀念也直直指向梯子的上方。平均的變異數結果 sigma^2 / n,是大數法則的種子——它掌管樣本平均如何安定向真實平均靠攏;也是中央極限定理的種子——它說這個安定是透過常態鐘形展開的;兩者都在數級之後,也都誠實地承認非得有有限變異數才行得通。而條件期望值則在更遠處長成一整套關於預測、以及鞅與隨機過程理論的語言。你帶著離散程度的可加結構,與條件化各個擊破的威力,穩穩在手,離開本級。