組裝起來：SerDes 架構與簽核

一個位元的旅程，從頭到尚

想像你是一個位元——一個孤單的 1——坐在發送晶片裡的一個並列字組中。這個學習軌道前面每一階，都只把你交給某一個級，然後揮手道別。現在我們跟著你走完全程，好讓這些零件不再只是一串技巧，而是合成一台機器。你的旅程有個每條現代連結都共享的形狀：序列化、塑形、發射、受難、等化、回復、判定、解序列化。八個動詞，地球上幾乎每一個位元都靠它們活著。

首先，序列化器把你和你的 31 個手足灌成一道串流——但發送端可不是把你當成乾淨的方波脈衝吐出來、然後祈禱就算了。它早就知道前方的銅線會把你和鄰居模糊在一起，所以在送出的路上先把你預先失真。發送端裡一段短短的前饋等化器（FFE），刻意把前一個和後一個位元的一小部分，從當前位元裡減掉——這叫預強調（pre-emphasis），若改成壓低穩態位準，就叫去強調（de-emphasis）。你離開晶片時看起來比理想更「糟」、微微過衝，正是為了在通道把你蹂躪過後，抵達時看起來剛好「對」。

接著就是受難。通道——打線、封裝、好幾公分的電路板走線、一個連接器，也許還有一片背板或一條纜線——奪走你的高頻能量，把你抹開、橫跨好幾個位元時間。等你抵達接收端焊墊時，那道俐落的預失真邊緣已經塌成一座軟趴趴的小山丘，而你和老早之前送出的位元糾纏在一起。這種糾纏就是符元間干擾（ISI），是整個領域的頭號反派。

接收端分三層反擊。一個連續時間線性等化器（CTLE）——本質上是個類比高通增益——把通道吃掉的高頻補回來，撤銷那道緩坡塌陷。接著判定迴授等化器（DFE）玩了更聰明的一手：它看著自己「已經判定好」的位元，把它們已知的拖尾從正在判定的這個位元裡減掉。CTLE 和 DFE 合力把你的眼睛重新撬開。最後，時脈資料回復（CDR）迴路——如你稍後會看到，由一個乾淨的參考時脈驅動——把取樣瞬間擺在那隻重新張開的眼睛正中央，判決器（slicer）做出判定：你是個 1。解序列化器再把你攤回一個字組。你成功了。

  TRANSMITTER                 CHANNEL                    RECEIVER
  ───────────                 ───────                    ────────
  parallel ┐                                              ┌ parallel
   word    │  ┌──────┐  ┌─────┐   ~~ loss ~~   ┌──────┐  ┌──────┐ │  word
   ──────► ├─►│ SER  ├─►│ FFE ├══►╗  ISI  ╔══►│ CTLE ├─►│ DFE  │─►├─────►
           │  └──────┘  └─────┘   ╚═══════╝    └──────┘  └──┬───┘ │
           ┘     ▲         ▲      board+pkg        ▲        ▼     ┘
                 │     pre-emphasis           hi-freq    ┌──────┐
                 │                              boost    │SLICER│──► bit
                 │                                       └──┬───┘
                 │                                          │
          ┌──────┴──────┐                            ┌──────┴──────┐
          │  TX clock   │◄────  REFERENCE  ────►│  CDR (RX clock) │
          │  from PLL   │        CLOCK          │   tracks data   │
          └─────────────┘     (shared PLL)      └─────────────────┘

完整的收發機資料路徑。一個參考 PLL 同時餵養發送序列化器時脈與接收端 CDR。等化分三處進行——通道前的 FFE、通道後的 CTLE 與 DFE——以撤銷通道造成的損傷。

心跳：一個 PLL，兩端共用

上面這一切都假設時脈已經存在。它從哪來？你不可能在每個區塊上都放一個精準的數 GHz 振盪器——你永遠沒辦法讓它們對齊，而且石英晶體跑不了那麼快。取而代之，SerDes 倚靠一個參考時脈，常常是個樸實的 100 MHz 石英晶體，再用一個鎖相迴路（PLL）把它倍頻上去。PLL 就是收發機的心跳：它拿那個又慢又準的參考，合成出序列化器和接收端都需要的、又快又乾淨的時脈。

發送端的故事很直接：PLL 的高速時脈為序列化器打拍子，每（半）個週期把一個位元推上導線。接收端則更微妙。CDR 不會盲目相信 PLL——遠端發送器的位元率「幾乎」等於但「並非完全」等於本地的，而且資料抵達時相位已被通道弄歪。所以 CDR 用 PLL 時脈當作粗略的起始頻率，再追蹤進來資料的相位，輕推自己的取樣點，好讓它即使在溫度漂移與抖動把它推來推去時，仍停留在眼圖正中央。PLL 提供粗略的拍子；CDR 提供精細的、鎖定在資料上的相位。

在任何資料流動之前，兩端必須先就「怎麼」溝通達成共識。它們協商速率、要用幾個 FFE／CTLE／DFE 抽頭、各用多強，甚至哪些通道是好的——這套握手叫做連結訓練（link training）。發送端送出已知的訓練樣式；接收端量測自己的眼圖，並請遠端發送器調整它的 FFE，直到眼睛最寬，再把設定鎖定。唯有訓練成功之後，連結才承載真實流量。訓練正是為什麼一條纜線能在板長天差地遠的情況下「就是會動」：連結自己發現了自己的通道，並適應了它。

證明它有用：眼圖、浴缸與預算

讓高速簽核成為一門獨立學問的，是這個殘酷的真相：一條通過一次的連結，可能在第「一兆」個位元上失敗。像 1e-12 的位元錯誤率（BER）這種目標，意思是每「一兆」個位元裡錯不到一個——而在 32 Gbps 下，這是大約每「三十秒」才容許一個錯誤的失敗預算。你沒辦法用看的測這個。把示波器擺在一條 1e-12 的連結上，你得等好幾分鐘才見一個錯誤，得花好幾天才湊出統計。所以簽核走向了統計化：與其直接量測罕見的失敗，我們改去「建模分布」，再外推到尾端。

兩張圖扛起了大部分的重量。第一張是統計眼圖：它不是把真實擷取的波形疊在一起，而是用工具把通道的響應、等化器、殘餘 ISI，以及雜訊／抖動分布卷積起來，算出在一個位元週期內每個位置上，訊號落在那裡的機率。等機率的等高線畫出一隻眼睛，它最內側的等高線就是 1e-12 眼——即使外推到兆分之一的尾端仍留下的開口。如果那條等高線仍包住一塊比接收端所需取樣窗更寬更高的區域，連結就通過。

第二張是 BER 浴缸曲線。把取樣瞬間掃過整個位元週期，在每一個相位上量測（或預測）錯誤率。在眼圖中央附近，錯誤罕見到趨近於零；往兩側邊緣去，你取樣到的是被 ISI 抹開的躍變處，錯誤率就飆升。畫在對數軸上，結果是一條形狀正像浴缸的曲線：中間是平坦的低谷底，兩側的牆陡峭爬升。浴缸底部在 1e-12 處的寬度，就是你真正的時序裕度——你真能依靠的水平眼開口。同樣的概念，改掃「電壓」而非時間，就得到一條垂直浴缸，給出振幅裕度。

  BER bathtub (sweep sample phase across one UI)

  1e0  ┤\                                         /
  1e-3 ┤ \                                       /
  1e-6 ┤  \                                     /
  1e-9 ┤   \___                             ___/
  1e-12┤      \___________________________/        ← 1e-12 floor
       └──────┬─────────────────────────┬──────►  phase (UI)
            left                      right
            edge                       edge
              │◄── timing margin @1e-12 ──►│
              "horizontal eye opening you can ship"

一條 BER 浴缸曲線。平坦的谷底是取樣安全的區域；它在目標 BER（此處為 1e-12）處的寬度，就是真正的時序裕度。另一道電壓掃描則給出垂直（振幅）裕度。

支撐這兩張圖的，是預算分配——把整個錯誤容許量切成具名的片段，讓每個團隊各認領一塊。損耗預算為奈奎斯特頻率上的總插入損耗（以 dB 計）設上限（例如「通道在 14 GHz 最多損耗 30 dB」）；抖動預算則把總時序誤差分攤給它的各種類——隨機抖動（RJ，高斯型，由 1e-12 尾端決定）、確定性抖動（DJ，有界，來自 ISI 與串擾），以及 PLL 自身的貢獻。把各項預算加起來，和可用的單位區間相比，剩下的就是你的裕度。簽核，一句話說完，就是證明這份裕度在電壓、溫度、製程的每一個角點上都為正——而且是在分布的尾端，不是它的中央。

相容性：講同一套標準

一條只有你自家晶片能溝通的連結，毫無用處。所以大多數 SerDes 都活在某個產業標準裡，那套標準把兩家素昧平生的晶片必須彼此同意的每個細節都釘死：位元率、線路編碼、等化、連接器、通道損耗上限，以及——最關鍵的——一整套帶有合格／不合格遮罩的相容性測試，晶片必須通過才能掛上那個標誌。相容性，就是那紙合約，讓某廠的 SSD 能插進另一廠的筆電裡，而且就是會動。

PCIe（PCI Express）在電腦內部串起 GPU、SSD 與加速器。每一代大約把通道速率翻倍——Gen5 為 32 GT/s，Gen6 跳到 PAM4 的 64 GT/s——並把通道捆成 x1…x16 的寬度。相容性涵蓋連結訓練、眼圖遮罩與介面卡測試。
USB 是你桌上那條萬用線。從 480 Mbps（USB 2.0）到 20 Gbps 以上（USB4，與 Thunderbolt 共用 PHY），它得在便宜纜線與熱插拔下存活——所以它的相容性重重壓在韌性與一個寬容的接收端上，而不只是純粹的速度。
DDR 記憶體是個異類：它仍是一條寬的、源同步的「並列」匯流排（時脈與資料一起走），因為 DRAM 就在幾公分外，需要的是原始的總頻寬。DDR5 借用了 SerDes 的點子——逐通道訓練、等化、判定迴授——卻沒有完全走向串列。它展示了這道光譜：並非每條快速連結都是 SerDes。
乙太網在機器之間搬位元——10G、25G、100G、400G、800G——由每通道 25、50（PAM4）或 100 Gbps 的通道組成。它的相容性是所有之中最能容忍損耗的，因為通道可能是一片長背板、一條銅製 DAC 線、或是光纖，而它大量倚靠前向錯誤更正（FEC）來達到 BER 目標。

注意這四者之間更深的一個規律。隨著速率攀升，每一個標準都收斂到「同一套」工具箱——自適應等化、嵌入式時脈、PAM4 與 FEC——即使它們的通道與使用情境看起來毫不相像。這份收斂，正是為什麼深入學通一種 SerDes（如你在這個學習軌道所做的）能處處遷移：方言會變，但文法是共享的。

SerDes 現在住哪：從電路板到小晶片

幾十年來，SerDes 驅動的通道總是「長」的——橫越一片電路板、穿過一個連接器、沿著一片背板而下。但一場安靜的革命把這件事翻轉了。晶片變得如此巨大、又如此難以良率達標，於是建造者開始把一顆巨大晶粒切成好幾個較小的小晶片（chiplet）——這裡一塊 CPU 磚、那裡一塊 I/O 磚、旁邊疊著好幾層記憶體——再在一塊共用的封裝載板上把它們縫合起來。突然之間，最重要的連結不再是板對板，而是晶粒對晶粒，一段以毫米計、而非公分計的旅程。

短通道改變了一切。在幾毫米的矽中介層上，損耗極小、佈線密度極大——所以晶粒對晶粒的連結可以「再次走向寬而並列」，幾百條通道、每通道速度較低、等化簡單、每位元能耗極低。這正是 UCIe（Universal Chiplet Interconnect Express）的利基：一套開放標準，定義晶粒對晶粒的 PHY 與協定，讓「不同廠商」的小晶片能被封裝進同一個產品。它是並列匯流排的重生——但這只因為通道縮回到了一個「並列再次獲勝」的長度。

精通的地平線：更快、更多階、與光

你現在已經組裝起一整台收發機，也學會了怎麼證明它能出貨。那麼這個領域接下來往哪去？三條前沿同時在拉扯，而每一條都是你已經懂的某件事的直接延伸。

更快的通道。無情的進軍持續著：56、然後 112，如今每通道 224 Gbps 已在量產與研究中。但每一次翻倍，都在新的、更高的奈奎斯特頻率上買進指數級增加的通道損耗——所以銅線本身正逼近一堵牆。在任何真實距離上超過大約 200 Gbps，電氣等化就是在和它幾乎贏不了的物理搏鬥。

比 PAM4 更多的階。一條逃生路是每個符元載更多位元，好讓「鮑率（baud）」（因而奈奎斯特頻率）維持在可控範圍。PAM4 的四個階，每個載 2 位元；PAM6、PAM8 以上塞進更多。但天下沒有白吃的午餐：把更多振幅階堆進同一個電壓擺幅，會縮小它們之間的間距，於是每一階都更靠近鄰居、對雜訊脆弱得多。每多一階，都是用訊雜裕度換頻譜效率——而只有最乾淨的通道，才付得起這筆交易。

共封裝光學。最深層的答案，是別再和銅線搏鬥，乾脆換掉載體——換成光。光纖在那些擊敗銅線的距離上幾乎不損耗能量，所以長連結的未來是光子的。前沿是共封裝光學（co-packaged optics）：把光學引擎直接擺在交換晶粒旁邊、同一個封裝裡，讓位元只以電子之姿走幾毫米，就化為光子。你剛學的序列化器、等化器、BER 簽核並不會消失——它們坐在一條光學連結的電氣邊緣，餵的是光，而不是銅。