期望值：長期平均

你會押哪個數字？

在前面的階梯裡，你已經學會了什麼是隨機變數——一條把數字綁到隨機試驗每個結果上的規則——以及它的機率如何分散在各個可能值上。然而，一整個分配要記在腦中太多了。我們常常想要一個單一數字來概括它「落在哪裡」：一個你能據以規劃、下注或回報的數值。最重要的這類概括就是期望值，記作 E[X]，它回答一個精確的問題——如果你把這個隨機變數一次又一次地跑、再把結果平均，那個平均會穩定在哪個數字上？

從最熟悉的平均開始。若一個班級在考試中考了 70、80、80、90 分，平均是 (70 + 80 + 80 + 90) / 4 = 80。注意 80 出現了兩次，所以算了兩次——這已經是一種加權。現在想像你手上不是一份四個分數的完成名單，而是一個隨機變數 X，它以機率 1/4 取值 70、以機率 1/2 取值 80、以機率 1/4 取值 90。自然的平均是依「各值出現的頻繁程度」來加權：70 乘 1/4 加 80 乘 1/2 加 90 乘 1/4，結果又是 80。這種「按機率加權」正是整個想法。

加權平均的定義

對離散隨機變數，期望值是每個值乘以其機率後的總和：E[X] = 對各 x 求和 x 乘 P(X = x)。每個值都依其機率質量的比例拉動平均——變數幾乎不會取的值幾乎拉不動它，而可能的值則用力拉。一個生動的力學圖像能讓它牢牢記住：把數線想成一根細尺，在每個值 x 處放上一團重量 P(X = x)。期望值 E[X] 恰好是平衡點，是這根尺擱在指尖上能保持水平的位置。機率就是質量；期望值就是質心。

如果 X 是連續的、沒有一團團分開的質量，而是有一條平滑的密度 f(x) 呢？總和就變成積分，由密度扮演先前機率所扮演的角色：E[X] = x 乘 f(x) 對所有 x 的積分。圖像完全一樣——一條連續的黏土棒，每一點的厚度是 f(x)，在它的質心處平衡。這裡有個誠實的細節要小心：密度 f(x) 不是機率，而在任何單一點上機率恰好是零。密度只有在你把它對某段區間積分後才變成機率，所以我們是按 f(x) dx 加權，絕不只按 f(x)。

Discrete:    E[X] = sum_x  x * P(X = x)
Continuous:  E[X] = integral  x * f(x) dx

Example (discrete), the test scores:
  E[X] = 70*(1/4) + 80*(1/2) + 90*(1/4)
       = 17.5 + 40 + 22.5
       = 80

Example (continuous), X ~ Uniform(0, 10):
  f(x) = 1/10 for 0 <= x <= 10
  E[X] = integral_0^10  x * (1/10) dx
       = (1/10) * [x^2 / 2]_0^10
       = (1/10) * 50 = 5     (the midpoint, as the balance picture predicts)

離散的求和與連續的積分是同一個加權平均——值乘以機率質量。

期望值不是最可能的值

這裡有個最常見的初學者陷阱，值得正面迎擊。期望值是一個平均，不是一個典型結果，它甚至不一定是變數能取到的值。擲一顆公正的六面骰：E[X] = (1 + 2 + 3 + 4 + 5 + 6) / 6 = 3.5。你永遠擲不出 3.5——但它確實是每擲一次的正確長期平均。期望值是重心，而平衡點可以落在重物之間的空處。說「我期望擲出 3.5」是寬鬆的口語；精確的意思純粹是關於長期平均。

當分配不對稱時，期望值還會以另一種方式誤導。單一最可能的值有自己的名字——眾數——而把機率切成一半的值是中位數；兩者都不必等於 E[X]。當某一側拖著一條長尾，少數幾個極端結果就會把平均數從資料主體拉得老遠。一座村莊裡人人賺著普通薪水，卻有一位居民是億萬富翁，這時平均所得高得驚人，卻誰也描述不到。這種「平均」與「典型」之間的落差，正是平均數誤導人時所警示的——平均是一個誠實的概括，但不是唯一的，而對於偏斜、重尾的量，它是錯的那一個。

為什麼「長期平均」不只是口號

把 E[X] 稱作長期平均不只是暗示性的說法——有一條定理讓它名副其實。假設你從同一個分配抽出獨立的副本 X_1、X_2、…、X_n，並組成它們的樣本平均 (X_1 + … + X_n) / n。大數法則說：當 n 增大時，這個樣本平均會逼近 E[X]：擲骰一萬次，跑動平均會在 3.5 附近徘徊。這就是支撐整個詮釋的依據。期望值正是重複經驗會收斂到的那個值。

兩個誠實的提醒能避免它被誤解。第一，大數法則講的是平均，而不是總和會「扯平」。在一連串低點數之後，平均之所以漂回 3.5 附近，是因為後來的擲數稀釋了早期的，並不是因為骰子欠你什麼——高於低的累積差額其實可能持續增長。相信骰子會「自我修正」就是賭徒謬誤：獨立試驗沒有記憶，一枚剛連續擲出五次正面的公正硬幣，下一擲仍然恰好是 50/50。第二，這定理首先需要期望值存在；對柯西分配而言，無論 n 多大，樣本平均都安定不下來。

本階要往哪裡去

期望值是本階一切的奠基石，所以先看清前路會有幫助。目前你只能取 X 本身的期望值，但你會不斷地想要 X 某個函數的期望值——像是 X^2，或某個報酬 g(X)。下一篇會給出這件事乾淨的捷徑，即無意識統計學家定律，它讓你用相同的機率去重新加權 g(x)，就能算出 E[g(X)]，不必另求新的分配。

再來是期望值最有用的單一性質：線性性，也就是規則 E[aX + bY] = a E[X] + b E[Y]。它低調的超能力在於：無論 X 與 Y 是否獨立，它都成立——即使變數彼此糾纏，你仍可把期望值相加，這讓原本極為棘手的計算迎刃而解。接著我們不只談中心、還要量離散程度，用變異數 Var(X) = E[X^2] - (E[X])^2 及其平方根標準差；最後以高階動差、動差生成函數、偏態與分配的形狀為本階收尾。把這裡的平衡點想法掌握好，本階其餘部分就成了一連串自然的下一步。