JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

組裝起來:SerDes 架構與簽核

你已經逐一認識了每個零件——漏斗與扇子、有損耗的通道、各種等化器、回復出來的時脈。這篇收尾的一課,把它們全部裝到同一顆晶粒上,問出唯一能讓產品出貨的問題:**整條連結到底能不能運作、每一次都行、而且能撐上好幾年?** 我們會追著一個位元,從[[ic-serializer|序列化器]]一路走到[[ic-deserializer|解序列化器]],看一個共用的 [[phase-locked-loop|鎖相迴路]]如何餵養兩端,然後學工程師怎麼「證明」一條數 Gbps 的連結是好的——用統計眼圖、浴缸曲線、損耗預算,以及 PCIe、USB、DDR、乙太網背後的相容性規範。接著,我們望向地圖邊緣之外:更快的通道、更多 PAM 階數、[[ucie|小晶片]],以及光。

一個位元的旅程,從頭到尚

想像你是一個位元——一個孤單的 1——坐在發送晶片裡的一個並列字組中。這個學習軌道前面每一階,都只把你交給某一個級,然後揮手道別。現在我們跟著你走完全程,好讓這些零件不再只是一串技巧,而是合成一台機器。你的旅程有個每條現代連結都共享的形狀:序列化、塑形、發射、受難、等化、回復、判定、解序列化。八個動詞,地球上幾乎每一個位元都靠它們活著。

首先,序列化器把你和你的 31 個手足灌成一道串流——但發送端可不是把你當成乾淨的方波脈衝吐出來、然後祈禱就算了。它早就知道前方的銅線會把你和鄰居模糊在一起,所以在送出的路上先把你預先失真。發送端裡一段短短的前饋等化器(FFE),刻意把前一個和後一個位元的一小部分,從當前位元裡減掉——這叫預強調(pre-emphasis),若改成壓低穩態位準,就叫去強調(de-emphasis)。你離開晶片時看起來比理想更「糟」、微微過衝,正是為了在通道把你蹂躪過後,抵達時看起來剛好「對」。

接著就是受難。通道——打線、封裝、好幾公分的電路板走線、一個連接器,也許還有一片背板或一條纜線——奪走你的高頻能量,把你抹開、橫跨好幾個位元時間。等你抵達接收端焊墊時,那道俐落的預失真邊緣已經塌成一座軟趴趴的小山丘,而你和老早之前送出的位元糾纏在一起。這種糾纏就是符元間干擾(ISI),是整個領域的頭號反派。

接收端分三層反擊。一個連續時間線性等化器(CTLE)——本質上是個類比高通增益——把通道吃掉的高頻補回來,撤銷那道緩坡塌陷。接著判定迴授等化器(DFE)玩了更聰明的一手:它看著自己「已經判定好」的位元,把它們已知的拖尾從正在判定的這個位元裡減掉。CTLE 和 DFE 合力把你的眼睛重新撬開。最後,時脈資料回復(CDR)迴路——如你稍後會看到,由一個乾淨的參考時脈驅動——把取樣瞬間擺在那隻重新張開的眼睛正中央,判決器(slicer)做出判定:你是個 1解序列化器再把你攤回一個字組。你成功了。

  TRANSMITTER                 CHANNEL                    RECEIVER
  ───────────                 ───────                    ────────
  parallel ┐                                              ┌ parallel
   word    │  ┌──────┐  ┌─────┐   ~~ loss ~~   ┌──────┐  ┌──────┐ │  word
   ──────► ├─►│ SER  ├─►│ FFE ├══►╗  ISI  ╔══►│ CTLE ├─►│ DFE  │─►├─────►
           │  └──────┘  └─────┘   ╚═══════╝    └──────┘  └──┬───┘ │
           ┘     ▲         ▲      board+pkg        ▲        ▼     ┘
                 │     pre-emphasis           hi-freq    ┌──────┐
                 │                              boost    │SLICER│──► bit
                 │                                       └──┬───┘
                 │                                          │
          ┌──────┴──────┐                            ┌──────┴──────┐
          │  TX clock   │◄────  REFERENCE  ────►│  CDR (RX clock) │
          │  from PLL   │        CLOCK          │   tracks data   │
          └─────────────┘     (shared PLL)      └─────────────────┘
完整的收發機資料路徑。一個參考 PLL 同時餵養發送序列化器時脈與接收端 CDR。等化分三處進行——通道前的 FFE、通道後的 CTLE 與 DFE——以撤銷通道造成的損傷。

心跳:一個 PLL,兩端共用

上面這一切都假設時脈已經存在。它從哪來?你不可能在每個區塊上都放一個精準的數 GHz 振盪器——你永遠沒辦法讓它們對齊,而且石英晶體跑不了那麼快。取而代之,SerDes 倚靠一個參考時脈,常常是個樸實的 100 MHz 石英晶體,再用一個鎖相迴路(PLL)把它倍頻上去。PLL 就是收發機的心跳:它拿那個又慢又準的參考,合成出序列化器和接收端都需要的、又快又乾淨的時脈。

發送端的故事很直接:PLL 的高速時脈為序列化器打拍子,每(半)個週期把一個位元推上導線。接收端則更微妙。CDR 不會盲目相信 PLL——遠端發送器的位元率「幾乎」等於但「並非完全」等於本地的,而且資料抵達時相位已被通道弄歪。所以 CDR 用 PLL 時脈當作粗略的起始頻率,再追蹤進來資料的相位,輕推自己的取樣點,好讓它即使在溫度漂移與抖動把它推來推去時,仍停留在眼圖正中央。PLL 提供粗略的拍子;CDR 提供精細的、鎖定在資料上的相位。

在任何資料流動之前,兩端必須先就「怎麼」溝通達成共識。它們協商速率、要用幾個 FFE/CTLE/DFE 抽頭、各用多強,甚至哪些通道是好的——這套握手叫做連結訓練(link training)。發送端送出已知的訓練樣式;接收端量測自己的眼圖,並請遠端發送器調整它的 FFE,直到眼睛最寬,再把設定鎖定。唯有訓練成功之後,連結才承載真實流量。訓練正是為什麼一條纜線能在板長天差地遠的情況下「就是會動」:連結自己發現了自己的通道,並適應了它。

證明它有用:眼圖、浴缸與預算

讓高速簽核成為一門獨立學問的,是這個殘酷的真相:一條通過一次的連結,可能在第「一兆」個位元上失敗。像 1e-12 的位元錯誤率(BER)這種目標,意思是每「一兆」個位元裡錯不到一個——而在 32 Gbps 下,這是大約每「三十秒」才容許一個錯誤的失敗預算。你沒辦法用看的測這個。把示波器擺在一條 1e-12 的連結上,你得等好幾分鐘才見一個錯誤,得花好幾天才湊出統計。所以簽核走向了統計化:與其直接量測罕見的失敗,我們改去「建模分布」,再外推到尾端。

兩張圖扛起了大部分的重量。第一張是統計眼圖:它不是把真實擷取的波形疊在一起,而是用工具把通道的響應、等化器、殘餘 ISI,以及雜訊/抖動分布卷積起來,算出在一個位元週期內每個位置上,訊號落在那裡的機率。等機率的等高線畫出一隻眼睛,它最內側的等高線就是 1e-12 眼——即使外推到兆分之一的尾端仍留下的開口。如果那條等高線仍包住一塊比接收端所需取樣窗更寬更高的區域,連結就通過。

第二張是 BER 浴缸曲線。把取樣瞬間掃過整個位元週期,在每一個相位上量測(或預測)錯誤率。在眼圖中央附近,錯誤罕見到趨近於零;往兩側邊緣去,你取樣到的是被 ISI 抹開的躍變處,錯誤率就飆升。畫在對數軸上,結果是一條形狀正像浴缸的曲線:中間是平坦的低谷底,兩側的牆陡峭爬升。浴缸底部在 1e-12 處的寬度,就是你真正的時序裕度——你真能依靠的水平眼開口。同樣的概念,改掃「電壓」而非時間,就得到一條垂直浴缸,給出振幅裕度。

  BER bathtub (sweep sample phase across one UI)

  1e0  ┤\                                         /
  1e-3 ┤ \                                       /
  1e-6 ┤  \                                     /
  1e-9 ┤   \___                             ___/
  1e-12┤      \___________________________/        ← 1e-12 floor
       └──────┬─────────────────────────┬──────►  phase (UI)
            left                      right
            edge                       edge
              │◄── timing margin @1e-12 ──►│
              "horizontal eye opening you can ship"
一條 BER 浴缸曲線。平坦的谷底是取樣安全的區域;它在目標 BER(此處為 1e-12)處的寬度,就是真正的時序裕度。另一道電壓掃描則給出垂直(振幅)裕度。

支撐這兩張圖的,是預算分配——把整個錯誤容許量切成具名的片段,讓每個團隊各認領一塊。損耗預算為奈奎斯特頻率上的總插入損耗(以 dB 計)設上限(例如「通道在 14 GHz 最多損耗 30 dB」);抖動預算則把總時序誤差分攤給它的各種類——隨機抖動(RJ,高斯型,由 1e-12 尾端決定)、確定性抖動(DJ,有界,來自 ISI 與串擾),以及 PLL 自身的貢獻。把各項預算加起來,和可用的單位區間相比,剩下的就是你的裕度。簽核,一句話說完,就是證明這份裕度在電壓、溫度、製程的每一個角點上都為正——而且是在分布的尾端,不是它的中央。

相容性:講同一套標準

一條只有你自家晶片能溝通的連結,毫無用處。所以大多數 SerDes 都活在某個產業標準裡,那套標準把兩家素昧平生的晶片必須彼此同意的每個細節都釘死:位元率、線路編碼、等化、連接器、通道損耗上限,以及——最關鍵的——一整套帶有合格/不合格遮罩的相容性測試,晶片必須通過才能掛上那個標誌。相容性,就是那紙合約,讓某廠的 SSD 能插進另一廠的筆電裡,而且就是會動。

  1. PCIe(PCI Express)在電腦內部串起 GPU、SSD 與加速器。每一代大約把通道速率翻倍——Gen5 為 32 GT/s,Gen6 跳到 PAM4 的 64 GT/s——並把通道捆成 x1…x16 的寬度。相容性涵蓋連結訓練、眼圖遮罩與介面卡測試。
  2. USB 是你桌上那條萬用線。從 480 Mbps(USB 2.0)到 20 Gbps 以上(USB4,與 Thunderbolt 共用 PHY),它得在便宜纜線與熱插拔下存活——所以它的相容性重重壓在韌性與一個寬容的接收端上,而不只是純粹的速度。
  3. DDR 記憶體是個異類:它仍是一條寬的、源同步的「並列」匯流排(時脈與資料一起走),因為 DRAM 就在幾公分外,需要的是原始的總頻寬。DDR5 借用了 SerDes 的點子——逐通道訓練、等化、判定迴授——卻沒有完全走向串列。它展示了這道光譜:並非每條快速連結都是 SerDes。
  4. 乙太網在機器之間搬位元——10G、25G、100G、400G、800G——由每通道 25、50(PAM4)或 100 Gbps 的通道組成。它的相容性是所有之中最能容忍損耗的,因為通道可能是一片長背板、一條銅製 DAC 線、或是光纖,而它大量倚靠前向錯誤更正(FEC)來達到 BER 目標。

注意這四者之間更深的一個規律。隨著速率攀升,每一個標準都收斂到「同一套」工具箱——自適應等化、嵌入式時脈、PAM4 與 FEC——即使它們的通道與使用情境看起來毫不相像。這份收斂,正是為什麼深入學通一種 SerDes(如你在這個學習軌道所做的)能處處遷移:方言會變,但文法是共享的。

SerDes 現在住哪:從電路板到小晶片

幾十年來,SerDes 驅動的通道總是「長」的——橫越一片電路板、穿過一個連接器、沿著一片背板而下。但一場安靜的革命把這件事翻轉了。晶片變得如此巨大、又如此難以良率達標,於是建造者開始把一顆巨大晶粒切成好幾個較小的小晶片(chiplet)——這裡一塊 CPU 磚、那裡一塊 I/O 磚、旁邊疊著好幾層記憶體——再在一塊共用的封裝載板上把它們縫合起來。突然之間,最重要的連結不再是板對板,而是晶粒對晶粒,一段以毫米計、而非公分計的旅程。

短通道改變了一切。在幾毫米的矽中介層上,損耗極小、佈線密度極大——所以晶粒對晶粒的連結可以「再次走向寬而並列」,幾百條通道、每通道速度較低、等化簡單、每位元能耗極低。這正是 UCIe(Universal Chiplet Interconnect Express)的利基:一套開放標準,定義晶粒對晶粒的 PHY 與協定,讓「不同廠商」的小晶片能被封裝進同一個產品。它是並列匯流排的重生——但這只因為通道縮回到了一個「並列再次獲勝」的長度。

精通的地平線:更快、更多階、與光

你現在已經組裝起一整台收發機,也學會了怎麼證明它能出貨。那麼這個領域接下來往哪去?三條前沿同時在拉扯,而每一條都是你已經懂的某件事的直接延伸。

更快的通道。無情的進軍持續著:56、然後 112,如今每通道 224 Gbps 已在量產與研究中。但每一次翻倍,都在新的、更高的奈奎斯特頻率上買進指數級增加的通道損耗——所以銅線本身正逼近一堵牆。在任何真實距離上超過大約 200 Gbps,電氣等化就是在和它幾乎贏不了的物理搏鬥。

比 PAM4 更多的階。一條逃生路是每個符元載更多位元,好讓「鮑率(baud)」(因而奈奎斯特頻率)維持在可控範圍。PAM4 的四個階,每個載 2 位元;PAM6、PAM8 以上塞進更多。但天下沒有白吃的午餐:把更多振幅階堆進同一個電壓擺幅,會縮小它們之間的間距,於是每一階都更靠近鄰居、對雜訊脆弱得多。每多一階,都是用訊雜裕度換頻譜效率——而只有最乾淨的通道,才付得起這筆交易。

共封裝光學。最深層的答案,是別再和銅線搏鬥,乾脆換掉載體——換成。光纖在那些擊敗銅線的距離上幾乎不損耗能量,所以長連結的未來是光子的。前沿是共封裝光學(co-packaged optics):把光學引擎直接擺在交換晶粒旁邊、同一個封裝裡,讓位元只以電子之姿走幾毫米,就化為光子。你剛學的序列化器、等化器、BER 簽核並不會消失——它們坐在一條光學連結的電氣邊緣,餵的是光,而不是銅。