JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

2.5D 整合:中介層、矽穿孔與 HBM

現代 AI 晶片正在挨餓。它的邏輯運算數字的速度,比普通電路板上任何一條導線餵給它資料的速度都快——這就是令人聞之色變的[[memory-wall|記憶體牆]]。出路是乾脆不再把資料送過電路板,而是把處理器與它的記憶體並排放到一小片佈滿數萬條髮絲般細線的矽片上:也就是[[interposer|中介層]]。本篇將說明 [[ic-2p5d-integration|2.5D 整合]]、[[through-silicon-via|矽穿孔]]與成疊的 [[high-bandwidth-memory|HBM]] 如何聯手,在從不碰觸基板粗導線的晶粒之間,送出每秒數 TB 的資料。

記憶體牆,以及為何電路板才是瓶頸

想像一位冠軍主廚,能在十秒內把一道菜切好、煎好、擺好盤——但通往食材庫的唯一通道,是一條只有一位侍者徒手把食材搬進來的窄走廊。廚房的速度不再由主廚決定,而是由走廊決定。這條走廊,正是今天每一顆高效能晶片核心處的難題。現代 GPU 或 AI 加速器每秒能執行數十兆次運算,但每次運算都需要從記憶體取來運算元,而通往那記憶體的路徑,已成為整台機器裡最慢的一環。我們稱之為記憶體牆

為何這條路徑這麼慢?在傳統電路板上,處理器與 DRAM 是相隔數公分焊接的兩個獨立封裝,透過印刷電路板上的銅導線溝通。那些導線又寬又疏——尺度在數十微米到數毫米之間——所以兩個封裝之間只塞得下幾百條線,而每條線在反射與串擾毀掉訊號之前,只能跑到不高的資料速率。把寬度乘上速率,就得到一道頻寬天花板。對於每毫秒就要把數 GB 權重串流過晶片的工作負載而言,那道天花板就是一面磚牆。

Bandwidth = (number of parallel wires)  x  (data rate per wire)

Classic board-level DRAM channel
  ~64 data wires/channel  x  ~3.2 Gbit/s   ≈   ~25 GB/s per channel
  a few channels         ->                   ~100-200 GB/s total

The ceiling comes from PHYSICS of the board:
  - traces are wide (tens of um) -> few wires fit between packages
  - traces are long (cm)         -> high R, L, C -> slow, lossy, power-hungry
  - drivers must shout across cm  -> pJ per bit is high

Goal of 2.5D: replace the cm-long board hop with a um-short hop
              and pack THOUSANDS of wires instead of hundreds.
頻寬等於線數乘以速率。電路板同時限制了兩者——所以我們把連結搬到矽上,藉此縮短線長並倍增線數。

中介層:晶粒底下的一塊矽電路板

2.5D 整合的核心是中介層——可以把它想成一塊極小、解析度極高的電路板,但材質是矽(有時是有機材料或重佈線層材料)而非玻璃纖維。在第 2 階你學過覆晶晶粒如何用焊料凸塊面朝下接合到封裝上,以及其中最細的微凸塊如何以約 40 µm 或更小的間距把晶粒連到載板。中介層就是那塊載板。邏輯晶粒與它的記憶體都用微凸塊覆晶到中介層頂面上;而中介層的任務,是以任何有機板都比不上的密度,把它們連在一起。

為何矽能佈線得如此密集?因為中介層是用製造晶片的同一套微影技術做出來的。它的佈線層以微米與次微米級的線寬圖案化,所以單一中介層就能在相鄰晶粒之間承載數萬條平行訊號。這正是關鍵數字:電路板提供數百條線之處,中介層提供數萬條,而且每條只有一兩毫米長。頻寬天花板因此提升了一到兩個數量級,而且是橫向地提升——晶粒並排而非堆疊,這正是它被稱為 2.5D 而非完整 3D 的原因。

SIDE VIEW of a 2.5D package (not to scale)

   [ Logic die / GPU ]        [ HBM stack ]
    | | | | | | | | |          | | | | | |   <- microbumps (~40um pitch)
  ==========================================  <- SILICON INTERPOSER
   ||  fine routing: 10000s of wires, ~1mm  ||    (top: dense Cu wiring)
   ||  TSV   TSV   TSV   TSV   TSV   TSV     ||   (TSVs punch down)
  ==========================================
    O   O   O   O   O   O   O   O   O   O      <- C4 solder bumps (~150um)
  ##########################################  <- PACKAGE SUBSTRATE
     o o o o o o o o o o o o o o o o o o        <- BGA balls to the board

  Two regimes of wiring:
   TOP   (interposer)  = dense + short  -> die-to-die signals
   BOTTOM(substrate)   = coarse + long  -> power & off-package I/O
晶粒之間透過中介層細密的頂層佈線溝通;電源與慢速 I/O 則經由矽穿孔下降到底下粗大的基板。

矽穿孔:把電源直直打下去

上一張圖裡藏著一個問題。如果晶粒坐在中介層頂上,而中介層是一整塊實心矽片,那麼電源要怎麼上去給它們,慢速的離封裝訊號又要怎麼下到基板、再出到電路板?你不可能把所有東西都繞著邊緣走。答案是直接鑽穿矽片。矽穿孔(TSV)是一根垂直的銅柱——通常直徑 5–10 µm、高數十微米——從頂面乾淨地貫穿中介層到底面,把上方的微凸塊與下方的 C4 凸塊電氣相連。

製作 TSV 是貨真價實的 3D 微加工。工程師在矽中蝕刻出又深又窄的孔(一種稱為 Bosch 製程的高深寬比蝕刻),在孔壁鋪上絕緣阻障層,以免銅與導電的矽短路,再用電鍍銅把孔填滿。晶圓之後從背面被磨薄,使穿孔底部露出來、可以植凸塊。成果是數千條垂直線,把電源、接地與相對慢速的 I/O 訊號送下基板——而快速的晶粒間對話則留在頂部的細佈線裡,根本不必走這趟下行旅程。

Anatomy of a Through-Silicon Via (TSV)

      microbump  o   <- die / top-side routing
               --|--   top metal
        +========+
        | Cu fill |   <- electroplated copper post
        | (5-10um |      diameter 5-10 um
        |  wide)  |      height   50-100 um
        |        |       aspect ratio ~ 10:1
   barrier liner |   <- insulator: keeps Cu from shorting to Si bulk
        +========+
               --|--   bottom metal (exposed by backgrind)
      C4 bump    O   <- down to the package substrate

  WHAT TSVs CARRY (mostly):  power, ground, slow off-package I/O
  WHAT STAYS ON TOP:         fast die-to-die signals in fine routing
TSV 是一根鑽穿矽片的銅柱,外覆絕緣層以免與基體短路,再藉由從背面磨薄晶圓使其露出。

HBM:一棟有寬大正門的記憶體摩天樓

現在輪到實例中的主角登場。高頻寬記憶體(HBM)正是 2.5D 幾乎是為了承載它而誕生的搭檔晶粒。一般 DRAM 是一片平坦的晶片,焊在電路板上遙遠的彼端;HBM 卻是一垂直堆疊的多片 DRAM 晶粒——通常 8、12 或 16 片——一片接一片接合,並由它們自己的 TSV 串接貫穿,坐在一片基底邏輯晶粒上。它是一棟記憶體摩天樓:與其把儲存攤開在整片電路板上,不如把它向上蓋,再把整座塔停在處理器正旁邊。

堆疊之所以有用,又是同一個道理——又短、又細、又多的線。把 DRAM 晶粒疊起、用 TSV 上下貫穿,意味著這座記憶體對外呈現出極寬的介面:一座 HBM 堆疊提供約一千位元寬的資料匯流排,相對於板級通道的 64 位元。這條超寬匯流排之所以行得通,全靠底下的中介層能在通往邏輯晶粒的那道毫米級縫隙上,扇出一千多條線,而完全不必碰觸電路板。HBM 與中介層是共同設計的:寬大的門只有在有寬廣的走廊來迎接它時才有意義。

Worked example: one logic die + 4 HBM stacks on a silicon interposer

  +---------+   +---------+
  |  HBM 0  |   |  HBM 1  |     each HBM stack:
  +---------+   +---------+       ~1024-bit data bus
        \           /            stacked DRAM + TSVs
      +-----------------+        on a base logic die
      |   LOGIC / GPU   |
      +-----------------+
        /           \
  +---------+   +---------+
  |  HBM 2  |   |  HBM 3  |
  +---------+   +---------+
   <----- all on ONE interposer ----->

  Bandwidth per stack (illustrative HBM-class numbers):
    1024 bits  x  ~6.4 Gbit/s/pin  /  8  ≈  ~800 GB/s per stack
    4 stacks                        ->   ~3.2 TB/s aggregate

  Compare a board-level DRAM subsystem:  ~0.1-0.2 TB/s
  -> roughly a 15-30x bandwidth jump, at LOWER energy per bit.
一片邏輯晶粒四周環繞四座 HBM 堆疊,可送出每秒數 TB——這正是 GPU 與 AI 加速器中典型的 2.5D 配置。

2.5D 對 3D,以及這一切矽片的代價

釐清這為何是 2.5D 而非 3D 是值得的。在 2.5D 中,所有主動晶粒都並排坐在共用的中介層上;唯一被堆疊的是它們底下那塊被動的中介層(以及 HBM 堆疊內部的 DRAM 層)。真正的 3D 整合——下一階的主題——更進一步:它把主動的邏輯晶粒直接一片疊一片,面對面或面對背地接合,常用完全不靠焊料、直接熔接銅墊的混合鍵合。2.5D 把熱攤開、並讓晶粒可分離;3D 在最短的垂直線上取勝,卻得對抗酷烈的散熱與鍵合難題。2.5D 是成熟、已量產的主力;3D 則是緊隨其後、更陡峭的前沿。

這一切都不便宜。矽中介層本身就是一大片用晶片級微影做出來的矽,而大型中介層很難做到沒有缺陷——它的良率隨面積增大而下降,而旗艦級加速器所需的中介層,可能比單次微影曝光所能印出的範圍還大,被迫採用奇特的拼接技術。經濟上的槓桿在於中介層的觸及範圍與密度:細線能橫越它跑多遠、又能塞進多少條。更大的觸及範圍讓你放下更多 HBM 堆疊與更大的邏輯晶粒;更高的密度則拉高頻寬。兩者都耗用面積,而矽上的面積要花錢。這就是 2.5D 的核心取捨。

正是這股成本壓力,使業界四處尋找更便宜的載體。有些 2.5D 封裝把整塊矽片換成一小片嵌在原為有機基板中的矽橋——只在兩顆晶粒真正相會之處鋪細佈線,其餘地方一律用粗的有機佈線。另一些則用一層厚的重佈線層(RDL)中介層,完全不靠矽晶圓建構。它們全都服務於驅動整個這一階的同一目標:在晶粒之間提供中介層級的佈線,最好不必到處都付出中介層級的矽片成本。這正是現代異質整合小晶片設計的引擎,並由 UCIe 之類的晶粒間介面加以標準化。

把它組起來:組裝流程

退一步看,整套 2.5D 食譜是一連串間距逐步縮小的接合,每一道都是上方更精細世界與下方更粗大世界之間的轉譯者。以下是邏輯加 HBM 模組的典型流程。

  1. 製作中介層晶圓:圖案化頂面細密的銅佈線,並蝕刻、鋪襯、填滿TSV,再背磨使穿孔底部露出。
  2. 預先測試每顆晶粒。邏輯晶粒與每一座 HBM 堆疊都必須各自通過、成為已知良品晶粒——你只想讓經過驗證的零件去碰那塊昂貴的中介層。
  3. 用細的微凸塊(間距約 40 µm)把晶粒接合到中介層頂面,再在每顆晶粒底下灌入底膠,以紓解那些微小接點上的熱應力。
  4. 用粗的 C4 凸塊(間距約 150 µm)把已布滿晶粒的中介層貼到封裝基板上——此時 TSV 將電源往上送、把慢速 I/O 往下送到基板。
  5. 裝上上蓋與散熱片,把基板的焊球連向外界,模組就準備好落到電路板上了——在一個外觀平常的封裝背後,呈現出每秒數 TB 的內部記憶體頻寬。