全基因組關聯研究、網路與系統生物學

從單個基因，到在數百萬人之間展開的搜尋

在這條階梯靠前的地方，你已經見過單個壞掉的基因如何引起一種單基因病——一個出錯的蛋白質、一個清晰的故事，可一路追溯到某一段 DNA。但塞滿醫生日常的大多數性狀，根本不是這個樣子。身高、血壓、2 型糖尿病或思覺失調的風險：這些都是複雜的、多基因的性狀，由成百上千個遺傳變異共同塑造，每一個只把概率撥動一絲一毫，再和飲食、壓力與偶然糾纏在一起。你沒法靠研究某一個帶著戲劇性突變的家族去找出這些變異。你需要一種辦法，在*整個群體*之間掃遍*整個基因組*，從統計上去問：是哪些字母傾向於和這個性狀一同出現。

這正是全基因組關聯研究——也就是 GWAS——所做的事，而它之所以成為可能，全靠廉價的定序與基因分型讓我們能以百萬計地讀取基因組。GWAS 的通用貨幣，是單核苷酸多態性，簡稱 SNP（讀作「snip」）：基因組上某個位置，在不同人之間常常只差一個字母——比如我們大多數人在那兒帶的是 A，而相當一部分人帶的是 G。SNP 是人類最常見的一類遺傳變異，每個基因組上都散落著數百萬個，其中絕大多數完全無害。它們不過是*路標*——固定、易讀、沿著每條染色體星星點點排開的地標。

GWAS 的竅門，就在於依靠這些路標。召集兩大群人——比如一萬名患病者和一萬名未患病者——在每個人身上讀取同樣那一百來萬個 SNP，然後逐個位置去數：這個 SNP 的某個版本，在患病組裡出現得是否比在健康組裡更頻繁？把這件事做上百萬遍，就會有少數幾個 SNP 凸顯出來，顯示出與該疾病*相關聯*。你事先並不需要知道是哪些基因要緊；你讓整個基因組自己開口。這是一種無假設的科學——一次全面的掃蕩，而非一次猜測。

讀懂曼哈頓圖——以及它誠實的侷限

GWAS 的結果通常畫成一張*曼哈頓圖*：基因組沿著所有染色體從左到右鋪開，每個 SNP 畫成一個點，點的高度就是它與該性狀關聯的強弱。大多數點都貼著地面——沒有訊號。但這裡那裡，會有一柱點像城市天際線一樣向上尖起，標出基因組中某個區域，那裡某個版本的 SNP 在患病者中穩定地更常見。因為你檢驗了上百萬個位置，你必須為「什麼才算真訊號」設一道極其嚴苛的門檻——否則單憑機遇也會冒出假的尖峰——於是只有最高、最令人信服的那些柱子才會被採信。

還有第二個發人深省的事實。即便每一個命中都貨真價實，GWAS 找到的變異通常也只能解釋某性狀可遺傳性中不大的一部分，而且每一個都只把風險挪動一點點。大多數 GWAS 命中還落在基因*之外*——落在你前面見過的、由計算註釋出來的調控性非編碼區段裡——它們改變的是一個基因*被表達多少*，而非它所造出的蛋白質。所以 GWAS 很少為一個故事畫上句號；它只是揭開一個故事的序幕。它指向某個區域，而後續那緩慢的工作——弄清究竟是哪個基因受了影響、在哪種細胞類型裡、通過什麼機制——才是真正做生物學的地方。掃描很快；理解卻不快。

為什麼一張零件清單還不夠

GWAS 更深一層的教訓——成百上千個微小的貢獻、大多落在調控區、彼此還相互作用——指向了一個對任何單個基因來說都太大的問題。當人類基因組計劃完成時，許多人本以為一張約兩萬個基因的零件清單就能大致解釋我們。結果並沒有，而原因令人謙卑：一個基因組不是一份你按順序讀下來的藍圖，它是*一份所有配料都彼此作用的食譜*。一個基因的蛋白質把第二個基因開啟，第二個又壓制第三個，第三個再反饋回來抑制第一個。把每一個零件都認全，對理解活細胞的幫助，並不比一架鋼琴的零件清單對理解一首奏鳴曲的幫助更多。

這正是[[systems-biology|系統生物學]]的奠基洞見：要理解一個細胞，你不能只研究它的零件，還得研究*零件之間的相互作用*，而且常常得把它們一併研究。是新出現的各種組學資料——基因組、來自 RNA 定序的轉錄組、為每一種蛋白質編目的蛋白質組——才讓這件事變得可想。系統生物學不再一次只看一個基因，而是把整份清單端上來，去問它是*如何接線連在一起*的。描述接線最自然的語言，就是網路：把每一個基因或蛋白質畫成一個點（一個*節點*），在任意兩個有相互作用的之間畫一條線（一條*邊*）。細胞的生物學，就變成了一張圖。

兩類網路：誰調控誰，誰接觸誰

有兩類網路最為重要。第一類是[[gene-regulatory-network|基因調控網路]]，而它的每一塊零件，你在前面幾級裡其實都已經握在手中。回想一下：轉錄因子是一種能結合 DNA、把基因開或關的蛋白質。現在把鏡頭拉遠：這個轉錄因子本身也由某個基因編碼，而那個基因又被*別的*轉錄因子開或關。從每個調控基因畫一支箭，指向它所控制的每一個基因，整個基因組就顯影成一張電路圖——誰開啟誰。這些箭有方向、也有正負之分（激活或抑制），所以調控網路與其說是一張靜態的地圖，不如說是一塊*邏輯板*。

第二類是[[protein-interaction-network|蛋白質相互作用網路]]，有時也叫*互作組*。蛋白質很少單打獨鬥；它們彼此抓握，組裝成機器、接力傳遞訊號。把每一對在物理上相互接觸的蛋白質都標出來——每個作一個節點，每處接觸作一條邊——你就得到一張鋪展開的網。那張網裡緊密互連的團塊，往往就是*功能模組*：一組協同搭建某台機器、或共同運行某條通路的蛋白質，就像你前面見過的訊號級聯那樣。網路不只把蛋白質羅列出來；它還按照「它們一同幹的活」把它們歸了類。

GENE REGULATORY NETWORK            PROTEIN INTERACTION NETWORK
(arrows = who controls whom)       (lines = who physically touches)

   TF-A --activates--> gene B          P1 --- P2
     |                  |               |  \   / |
  represses         activates           |   P3  |
     |                  v               |  /   \ |
     +----------------> gene C          P4 --- P5

  directed, signed circuit            undirected web; dense
  -> behaves like logic               clumps = functional modules

對同一個細胞兩種互補的看法。基因調控網路是一張有方向、帶正負的電路（誰把誰開或關）；蛋白質相互作用網路則是一張無方向的網，其中密集的團塊揭示出那些作為一台機器協同工作的蛋白質。

湧現：當網路做出任何單個基因都做不到的事

畫出這些網路的回報，在於它們能解釋任何單個組件都不具備的行為——生物學家稱之為湧現行為。來看一個微小而真實的回路模體：基因 A 造出一種蛋白質，去壓制基因 A 自己的生產。這一條負反饋環，僅僅是一個節點繞回自身，就給了細胞一樣單個基因給不了的東西——*穩定*，把它的蛋白質水平穩穩頂住噪聲，恰如一台恆溫器把房間維持在某個溫度附近。把兩個抑制因子接起來，讓彼此互相關閉，這一對就成了一個有兩個穩定狀態的*雙穩開關*，一種能翻轉、又能保持翻轉的細胞記憶。在環路上加一段延遲，你就得到一個會振盪的*時鐘*——這正是晝夜節律的基礎。記憶、節律、穩健——這些沒有一樣住在任何單個基因裡。它們住在*連接的圖樣*之中。

測量零件：用基因組定序、RNA 定序和蛋白質組學，把在場的基因、轉錄本和蛋白質都編目，並看它們的水平在不同條件下如何變化。
推斷接線：從這些測量出發，推算出哪些節點影響哪些節點——把調控網路和相互作用網路的邊畫出來。
建模並預測：把接線變成方程或一套電腦模擬，把它跑起來，預測當你擾動某個節點時這個系統應當如何表現。
檢驗並修正：回到實驗台，把那個節點敲除或過量表達，把細胞真實的反應與預測相比照——然後在模型出錯的地方把它修好。

請留意這個循環如何為整整這一級的旅程畫上閉環。我們從定序一切開始，組裝並比較基因組；如今我們把那一座座資料之山餵進網路與模型，模擬活的系統，再繞回濕實驗去檢驗預測。這正是為什麼分子生物學長出了一個沉甸甸的定量、計算的另一半：理解整個系統，既是移液器的活，也同樣是生物資訊學和數學的活。它也正在重塑醫學——不再是一個基因、一種藥，精準醫學越來越多地讀取一個人的整個基因組，去問他在這些網路中處於何處，從而讓一種療法能瞄準整個系統，而不只是某一個壞掉的零件。