空間與帶標記的卜瓦松過程

讓速率呼吸：非齊次過程

到目前為止，你在這一階段建構的一切，都倚賴一個悄悄的假設：速率 lambda 從不改變。公車在凌晨三點和下午三點都恰好是每小時 4 班。現實鮮少如此乖巧。咖啡店在午後冷清、在早晨尖峰被擠爆；急診人次在週末暴增；網路流量隨日照繞著地球走。[[non-homogeneous-poisson-process|非齊次卜瓦松過程]]保留了卜瓦松過程所有的好處，卻讓速率能起伏，於是單一的數字 lambda 變成了時間的函數 lambda(t)。

正確的記帳工具，是速率曲線下的面積，稱為平均函數：m(t) = 0 到 t 的 lambda(u) du 之積分，也就是到時刻 t 為止累積的事件期望個數。任一區間 (s, t] 內的計數於是服從平均為 m(t) - m(s) 的卜瓦松分配，而不相交區間的計數仍然彼此獨立。一句話：把「lambda 乘以長度」換成「速率曲線下的面積」，其餘一切照舊。若一家店的速率隨時間線性攀升為 lambda(t) = 2t 人／小時，則在最初 3 小時內，你期望 2t 的積分，也就是 t^2 在 3 處的值，即 9 位顧客——而非定速率下的 6 位。

帶著分量的事件：複合過程

你往往並不在意發生了幾個事件，而在意它們各自帶來的某樣東西的累計總和。保險公司在意的是理賠總金額，而非理賠件數；網站在意的是送出的總位元組數，而非請求次數；賭場在意的是付出的總彩金，而非中了幾次頭獎。[[compound-poisson-process|複合卜瓦松過程]]追蹤的正是這個：事件以卜瓦松過程到達，而每個事件拖著一個獨立的隨機大小，你把它們不斷累加起來。

形式上，令 N(t) 為速率 lambda 的卜瓦松過程，並令 Y_1, Y_2, Y_3, ... 為獨立同分配的跳躍大小，且與 N 獨立。複合過程是隨機和 X(t) = Y_1 + Y_2 + ... + Y_(N(t))，當尚無事件發生時 X(t) = 0。項數與各項本身都是隨機的——這正是它比固定長度的和更豐富之處。對計數取條件，均值便漂亮地落出：E[X(t)] = E[N(t)] * E[Y] = lambda*t*E[Y]。變異數則由全變異數法則得出，為 Var(X(t)) = lambda*t*E[Y^2]。

每個點上的一個標籤：帶標記的卜瓦松過程

有時一個事件不只是一個時刻，而是釘上了額外資訊的時刻。經過感測器的車有一個車速；一場地震有一個規模；一位顧客有一筆消費金額；一滴落下的雨有一個大小。[[marked-poisson-process|帶標記的卜瓦松過程]]同時記下到達時刻與標記，於是每個事件都成了一對 (時刻, 標記)——一個鐘面上、綴飾了資料的點。先取一個由到達時刻構成的卜瓦松過程，再對每個到達獨立地附上一個從固定標記分配中抽出的標記。標記可以是數字、類別，或整個向量。

定義性的要求是：給定各個時刻，標記彼此獨立、也與時間安排獨立。回報就是標記定理：這些 (時刻, 標記) 對所構成的整體，本身就是一個卜瓦松過程，只是如今活在「時刻乘以標記」這個更大的空間上。這一句話悄悄統合了前兩節、以及第 3 篇的一大塊。若標記是一枚「留下或丟棄」的硬幣，你便還原出稀化。若標記是一個數值大小、而你把標記加總，你便還原出複合卜瓦松過程。若標記是一個空間位置，你便得到平面上的散布——恰好就是下一節。

這使得標記成為「各自帶著資料的隨機事件」之靈活萬用工具。想知道規模 6 以上地震的速率？以「標記超過 6」的機率去稀化這個過程——而依稀化規則，那些大地震自成一個卜瓦松過程，並與小地震獨立。想知道一年內釋放的總能量？把能量標記加總，便是一個複合和。要恪守的那個假設，一如既往是獨立性：那些乾淨的結論，需要標記與時間安排、彼此之間都獨立。若大事件在時間上群聚——若一次大地震使下一次更可能發生——那麼簡單的「帶標記卜瓦松」模型就用錯了，你得改用自激（self-exciting）模型。

離開時間軸，走上地圖：空間點過程

現在把「完全隨機的事件」這個想法，散落到一張地圖上、而非一條時鐘上。一片天空裡的星辰、一座森林裡的樹、一頁紙上的錯字、一片矽晶圓上的瑕疵、一座城市裡的手機用戶——當點落下時毫無偏好、彼此互不干涉，[[spatial-poisson-point-process|空間卜瓦松點過程]]就是那個模型。它是卜瓦松過程的二維與三維表親，也是統計學家口中「完全空間隨機性」的基準。

它的旋鈕如今是一個強度 lambda，也就是每單位面積（或體積）的點期望個數。兩條定義性規則與時間的情形如出一轍：任一區域 A 內的點數服從平均為 lambda 乘以 A 面積的卜瓦松分配，且不重疊區域的計數彼此獨立。那個熟悉的條件奇蹟也再次現身——給定某區域恰好落入 n 個點，這 n 個點在其上獨立且均勻地擺放，完全沒有花樣。而一如在時間中，強度可隨空間變化為 lambda(x)，給出一個非齊次空間過程，其在 A 內的平均計數是 lambda 在 A 上的積分。

TIME version            <-->   SPACE version
rate lambda (per time)  <-->   intensity lambda (per area)
count in (s,t]          <-->   count in region A
  ~ Poisson(lambda*(t-s))        ~ Poisson(lambda*area(A))
disjoint intervals indep <-->  disjoint regions indep
given n in window:       <-->  given n in region:
  uniform on the window          uniform over the region

把「長度」換成「面積」，時間版的卜瓦松過程就成了空間版。

隨機散布會結塊——而那會騙過眼睛

以下是整幅空間圖景中最重要的一個誠實提醒，它幾乎讓所有人吃驚。在完全空間隨機性之下，點看起來「仍然」是群聚的。對一張地圖丟 n 支均勻的飛鏢，你必然會在這裡看到團塊、在那裡看到光禿的空白。人們以為「隨機」就是「均勻散開」，但均勻散開恰恰是隨機的反面——那是規則網格給你的東西，是高度有序的。真正的隨機會產生團塊與空洞；一個完全沒有團塊的圖樣，反而是排斥力的證據，而非隨機性的證據。

這正是為何空間卜瓦松過程被當作虛無假設、而非一項發現。一位生態學家看到幼苗似乎成團，不能斷言「樹彼此吸引」——隨機散布也會成團。誠實的問題是比較性的：這些樹是比空間卜瓦松隨機性所預測的「更」群聚（幼苗在親株附近萌發），還是比它預測的「更」規則（成熟的樹彼此競爭而拉開間距）？你量化的是與卜瓦松基準的偏離程度；基準本身是尺規，而非結論。這與統計學中處處相同的紀律一致：一個圖樣，唯有對照純粹機運會產生什麼，才具有意義。

退一步，欣賞一個想法竟伸展了這麼遠。同一個核心——完全隨機灑落的點，不相交片段上計數獨立、總數服從卜瓦松——貫穿了本篇的每一個變體：時間中呼吸的速率、每個事件的隨機權重、每個點上的標籤、跨越空間的散布。標記定理把它們繫成一家，非齊次版把長度換成曲線下面積，空間版則把時間換成面積。第 5 篇將解除最後一道束縛——間隔須為指數——以抵達更新過程，並在那裡與令人愉快地反直覺的檢驗悖論相會。