JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

期望值:長期平均

期望值是隨機變數的重心——一個加權平均,預測多次重複後的長期平均。我們從頭把它建立起來,看清它為何不是最可能的值,並認識讓「期望」二字名副其實的大數法則。

你會押哪個數字?

在前面的階梯裡,你已經學會了什麼是隨機變數——一條把數字綁到隨機試驗每個結果上的規則——以及它的機率如何分散在各個可能值上。然而,一整個分配要記在腦中太多了。我們常常想要一個單一數字來概括它「落在哪裡」:一個你能據以規劃、下注或回報的數值。最重要的這類概括就是期望值,記作 E[X],它回答一個精確的問題——如果你把這個隨機變數一次又一次地跑、再把結果平均,那個平均會穩定在哪個數字上?

從最熟悉的平均開始。若一個班級在考試中考了 70、80、80、90 分,平均是 (70 + 80 + 80 + 90) / 4 = 80。注意 80 出現了兩次,所以算了兩次——這已經是一種加權。現在想像你手上不是一份四個分數的完成名單,而是一個隨機變數 X,它以機率 1/4 取值 70、以機率 1/2 取值 80、以機率 1/4 取值 90。自然的平均是依「各值出現的頻繁程度」來加權:70 乘 1/4 加 80 乘 1/2 加 90 乘 1/4,結果又是 80。這種「按機率加權」正是整個想法。

加權平均的定義

對離散隨機變數,期望值是每個值乘以其機率後的總和:E[X] = 對各 x 求和 x 乘 P(X = x)。每個值都依其機率質量的比例拉動平均——變數幾乎不會取的值幾乎拉不動它,而可能的值則用力拉。一個生動的力學圖像能讓它牢牢記住:把數線想成一根細尺,在每個值 x 處放上一團重量 P(X = x)。期望值 E[X] 恰好是平衡點,是這根尺擱在指尖上能保持水平的位置。機率就是質量;期望值就是質心。

如果 X 是連續的、沒有一團團分開的質量,而是有一條平滑的密度 f(x) 呢?總和就變成積分,由密度扮演先前機率所扮演的角色:E[X] = x 乘 f(x) 對所有 x 的積分。圖像完全一樣——一條連續的黏土棒,每一點的厚度是 f(x),在它的質心處平衡。這裡有個誠實的細節要小心:密度 f(x) 不是機率,而在任何單一點上機率恰好是零。密度只有在你把它對某段區間積分後才變成機率,所以我們是按 f(x) dx 加權,絕不只按 f(x)。

Discrete:    E[X] = sum_x  x * P(X = x)
Continuous:  E[X] = integral  x * f(x) dx

Example (discrete), the test scores:
  E[X] = 70*(1/4) + 80*(1/2) + 90*(1/4)
       = 17.5 + 40 + 22.5
       = 80

Example (continuous), X ~ Uniform(0, 10):
  f(x) = 1/10 for 0 <= x <= 10
  E[X] = integral_0^10  x * (1/10) dx
       = (1/10) * [x^2 / 2]_0^10
       = (1/10) * 50 = 5     (the midpoint, as the balance picture predicts)
離散的求和與連續的積分是同一個加權平均——值乘以機率質量。

期望值不是最可能的值

這裡有個最常見的初學者陷阱,值得正面迎擊。期望值是一個平均,不是一個典型結果,它甚至不一定是變數能取到的值。擲一顆公正的六面骰:E[X] = (1 + 2 + 3 + 4 + 5 + 6) / 6 = 3.5。你永遠擲不出 3.5——但它確實是每擲一次的正確長期平均。期望值是重心,而平衡點可以落在重物之間的空處。說「我期望擲出 3.5」是寬鬆的口語;精確的意思純粹是關於長期平均。

當分配不對稱時,期望值還會以另一種方式誤導。單一最可能的值有自己的名字——眾數——而把機率切成一半的值是中位數;兩者都不必等於 E[X]。當某一側拖著一條長尾,少數幾個極端結果就會把平均數從資料主體拉得老遠。一座村莊裡人人賺著普通薪水,卻有一位居民是億萬富翁,這時平均所得高得驚人,卻誰也描述不到。這種「平均」與「典型」之間的落差,正是平均數誤導人時所警示的——平均是一個誠實的概括,但不是唯一的,而對於偏斜、重尾的量,它是錯的那一個。

為什麼「長期平均」不只是口號

把 E[X] 稱作長期平均不只是暗示性的說法——有一條定理讓它名副其實。假設你從同一個分配抽出獨立的副本 X_1、X_2、…、X_n,並組成它們的樣本平均 (X_1 + … + X_n) / n。大數法則說:當 n 增大時,這個樣本平均會逼近 E[X]:擲骰一萬次,跑動平均會在 3.5 附近徘徊。這就是支撐整個詮釋的依據。期望值正是重複經驗會收斂到的那個值。

兩個誠實的提醒能避免它被誤解。第一,大數法則講的是平均,而不是總和會「扯平」。在一連串低點數之後,平均之所以漂回 3.5 附近,是因為後來的擲數稀釋了早期的,並不是因為骰子欠你什麼——高於低的累積差額其實可能持續增長。相信骰子會「自我修正」就是賭徒謬誤:獨立試驗沒有記憶,一枚剛連續擲出五次正面的公正硬幣,下一擲仍然恰好是 50/50。第二,這定理首先需要期望值存在;對柯西分配而言,無論 n 多大,樣本平均都安定不下來。

本階要往哪裡去

期望值是本階一切的奠基石,所以先看清前路會有幫助。目前你只能取 X 本身的期望值,但你會不斷地想要 X 某個函數的期望值——像是 X^2,或某個報酬 g(X)。下一篇會給出這件事乾淨的捷徑,即無意識統計學家定律,它讓你用相同的機率去重新加權 g(x),就能算出 E[g(X)],不必另求新的分配。

再來是期望值最有用的單一性質:線性性,也就是規則 E[aX + bY] = a E[X] + b E[Y]。它低調的超能力在於:無論 X 與 Y 是否獨立,它都成立——即使變數彼此糾纏,你仍可把期望值相加,這讓原本極為棘手的計算迎刃而解。接著我們不只談中心、還要量離散程度,用變異數 Var(X) = E[X^2] - (E[X])^2 及其平方根標準差;最後以高階動差、動差生成函數、偏態與分配的形狀為本階收尾。把這裡的平衡點想法掌握好,本階其餘部分就成了一連串自然的下一步。