JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

空間與帶標記的卜瓦松過程

到目前為止,卜瓦松過程都活在一條時間軸上。現在讓它伸展開來:讓速率隨時間起伏、替每個事件附上一個隨機大小、把點散落到一張地圖上,再替每個點貼上額外的資料。一個簡單的想法——完全隨機灑落的點——悄悄把這一切全都吸納了進來。

讓速率呼吸:非齊次過程

到目前為止,你在這一階段建構的一切,都倚賴一個悄悄的假設:速率 lambda 從不改變。公車在凌晨三點和下午三點都恰好是每小時 4 班。現實鮮少如此乖巧。咖啡店在午後冷清、在早晨尖峰被擠爆;急診人次在週末暴增;網路流量隨日照繞著地球走。[[non-homogeneous-poisson-process|非齊次卜瓦松過程]]保留了卜瓦松過程所有的好處,卻讓速率能起伏,於是單一的數字 lambda 變成了時間的函數 lambda(t)。

正確的記帳工具,是速率曲線下的面積,稱為平均函數:m(t) = 0 到 t 的 lambda(u) du 之積分,也就是到時刻 t 為止累積的事件期望個數。任一區間 (s, t] 內的計數於是服從平均為 m(t) - m(s) 的卜瓦松分配,而不相交區間的計數仍然彼此獨立。一句話:把「lambda 乘以長度」換成「速率曲線下的面積」,其餘一切照舊。若一家店的速率隨時間線性攀升為 lambda(t) = 2t 人/小時,則在最初 3 小時內,你期望 2t 的積分,也就是 t^2 在 3 處的值,即 9 位顧客——而非定速率下的 6 位。

帶著分量的事件:複合過程

你往往並不在意發生了幾個事件,而在意它們各自帶來的某樣東西的累計總和。保險公司在意的是理賠總金額,而非理賠件數;網站在意的是送出的總位元組數,而非請求次數;賭場在意的是付出的總彩金,而非中了幾次頭獎。[[compound-poisson-process|複合卜瓦松過程]]追蹤的正是這個:事件以卜瓦松過程到達,而每個事件拖著一個獨立的隨機大小,你把它們不斷累加起來。

形式上,令 N(t) 為速率 lambda 的卜瓦松過程,並令 Y_1, Y_2, Y_3, ... 為獨立同分配的跳躍大小,且與 N 獨立。複合過程是隨機和 X(t) = Y_1 + Y_2 + ... + Y_(N(t)),當尚無事件發生時 X(t) = 0。項數與各項本身都是隨機的——這正是它比固定長度的和更豐富之處。對計數取條件,均值便漂亮地落出:E[X(t)] = E[N(t)] * E[Y] = lambda*t*E[Y]。變異數則由全變異數法則得出,為 Var(X(t)) = lambda*t*E[Y^2]。

每個點上的一個標籤:帶標記的卜瓦松過程

有時一個事件不只是一個時刻,而是釘上了額外資訊的時刻。經過感測器的車有一個車速;一場地震有一個規模;一位顧客有一筆消費金額;一滴落下的雨有一個大小。[[marked-poisson-process|帶標記的卜瓦松過程]]同時記下到達時刻與標記,於是每個事件都成了一對 (時刻, 標記)——一個鐘面上、綴飾了資料的點。先取一個由到達時刻構成的卜瓦松過程,再對每個到達獨立地附上一個從固定標記分配中抽出的標記。標記可以是數字、類別,或整個向量。

定義性的要求是:給定各個時刻,標記彼此獨立、也與時間安排獨立。回報就是標記定理:這些 (時刻, 標記) 對所構成的整體,本身就是一個卜瓦松過程,只是如今活在「時刻乘以標記」這個更大的空間上。這一句話悄悄統合了前兩節、以及第 3 篇的一大塊。若標記是一枚「留下或丟棄」的硬幣,你便還原出稀化。若標記是一個數值大小、而你把標記加總,你便還原出複合卜瓦松過程。若標記是一個空間位置,你便得到平面上的散布——恰好就是下一節。

這使得標記成為「各自帶著資料的隨機事件」之靈活萬用工具。想知道規模 6 以上地震的速率?以「標記超過 6」的機率去稀化這個過程——而依稀化規則,那些大地震自成一個卜瓦松過程,並與小地震獨立。想知道一年內釋放的總能量?把能量標記加總,便是一個複合和。要恪守的那個假設,一如既往是獨立性:那些乾淨的結論,需要標記與時間安排、彼此之間都獨立。若大事件在時間上群聚——若一次大地震使下一次更可能發生——那麼簡單的「帶標記卜瓦松」模型就用錯了,你得改用自激(self-exciting)模型。

離開時間軸,走上地圖:空間點過程

現在把「完全隨機的事件」這個想法,散落到一張地圖上、而非一條時鐘上。一片天空裡的星辰、一座森林裡的樹、一頁紙上的錯字、一片矽晶圓上的瑕疵、一座城市裡的手機用戶——當點落下時毫無偏好、彼此互不干涉,[[spatial-poisson-point-process|空間卜瓦松點過程]]就是那個模型。它是卜瓦松過程的二維與三維表親,也是統計學家口中「完全空間隨機性」的基準。

它的旋鈕如今是一個強度 lambda,也就是每單位面積(或體積)的點期望個數。兩條定義性規則與時間的情形如出一轍:任一區域 A 內的點數服從平均為 lambda 乘以 A 面積的卜瓦松分配,且不重疊區域的計數彼此獨立。那個熟悉的條件奇蹟也再次現身——給定某區域恰好落入 n 個點,這 n 個點在其上獨立且均勻地擺放,完全沒有花樣。而一如在時間中,強度可隨空間變化為 lambda(x),給出一個非齊次空間過程,其在 A 內的平均計數是 lambda 在 A 上的積分。

TIME version            <-->   SPACE version
rate lambda (per time)  <-->   intensity lambda (per area)
count in (s,t]          <-->   count in region A
  ~ Poisson(lambda*(t-s))        ~ Poisson(lambda*area(A))
disjoint intervals indep <-->  disjoint regions indep
given n in window:       <-->  given n in region:
  uniform on the window          uniform over the region
把「長度」換成「面積」,時間版的卜瓦松過程就成了空間版。

隨機散布會結塊——而那會騙過眼睛

以下是整幅空間圖景中最重要的一個誠實提醒,它幾乎讓所有人吃驚。在完全空間隨機性之下,點看起來「仍然」是群聚的。對一張地圖丟 n 支均勻的飛鏢,你必然會在這裡看到團塊、在那裡看到光禿的空白。人們以為「隨機」就是「均勻散開」,但均勻散開恰恰是隨機的反面——那是規則網格給你的東西,是高度有序的。真正的隨機會產生團塊與空洞;一個完全沒有團塊的圖樣,反而是排斥力的證據,而非隨機性的證據。

這正是為何空間卜瓦松過程被當作虛無假設、而非一項發現。一位生態學家看到幼苗似乎成團,不能斷言「樹彼此吸引」——隨機散布也會成團。誠實的問題是比較性的:這些樹是比空間卜瓦松隨機性所預測的「更」群聚(幼苗在親株附近萌發),還是比它預測的「更」規則(成熟的樹彼此競爭而拉開間距)?你量化的是與卜瓦松基準的偏離程度;基準本身是尺規,而非結論。這與統計學中處處相同的紀律一致:一個圖樣,唯有對照純粹機運會產生什麼,才具有意義。

退一步,欣賞一個想法竟伸展了這麼遠。同一個核心——完全隨機灑落的點,不相交片段上計數獨立、總數服從卜瓦松——貫穿了本篇的每一個變體:時間中呼吸的速率、每個事件的隨機權重、每個點上的標籤、跨越空間的散布。標記定理把它們繫成一家,非齊次版把長度換成曲線下面積,空間版則把時間換成面積。第 5 篇將解除最後一道束縛——間隔須為指數——以抵達更新過程,並在那裡與令人愉快地反直覺的檢驗悖論相會。