JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

全基因組關聯研究、網路與系統生物學

一旦你能讀盡每一個基因組,你就能去問:在數百萬人當中,是哪些字母隨疾病一同起伏——並眼看著細胞不再是一張零件清單,而變成一張由相互作用的基因和蛋白質織成的網。來認識全基因組關聯研究、關聯與因果之間那道誠實的鴻溝,以及那種「行為從網路中湧現、而非源自單個零件」的系統視角。

從單個基因,到在數百萬人之間展開的搜尋

在這條階梯靠前的地方,你已經見過單個壞掉的基因如何引起一種單基因病——一個出錯的蛋白質、一個清晰的故事,可一路追溯到某一段 DNA。但塞滿醫生日常的大多數性狀,根本不是這個樣子。身高、血壓、2 型糖尿病或思覺失調的風險:這些都是複雜的、多基因的性狀,由成百上千個遺傳變異共同塑造,每一個只把概率撥動一絲一毫,再和飲食、壓力與偶然糾纏在一起。你沒法靠研究某一個帶著戲劇性突變的家族去找出這些變異。你需要一種辦法,在*整個群體*之間掃遍*整個基因組*,從統計上去問:是哪些字母傾向於和這個性狀一同出現。

這正是全基因組關聯研究——也就是 GWAS——所做的事,而它之所以成為可能,全靠廉價的定序與基因分型讓我們能以百萬計地讀取基因組。GWAS 的通用貨幣,是單核苷酸多態性,簡稱 SNP(讀作「snip」):基因組上某個位置,在不同人之間常常只差一個字母——比如我們大多數人在那兒帶的是 A,而相當一部分人帶的是 G。SNP 是人類最常見的一類遺傳變異,每個基因組上都散落著數百萬個,其中絕大多數完全無害。它們不過是*路標*——固定、易讀、沿著每條染色體星星點點排開的地標。

GWAS 的竅門,就在於依靠這些路標。召集兩大群人——比如一萬名患病者和一萬名未患病者——在每個人身上讀取同樣那一百來萬個 SNP,然後逐個位置去數:這個 SNP 的某個版本,在患病組裡出現得是否比在健康組裡更頻繁?把這件事做上百萬遍,就會有少數幾個 SNP 凸顯出來,顯示出與該疾病*相關聯*。你事先並不需要知道是哪些基因要緊;你讓整個基因組自己開口。這是一種無假設的科學——一次全面的掃蕩,而非一次猜測。

讀懂曼哈頓圖——以及它誠實的侷限

GWAS 的結果通常畫成一張*曼哈頓圖*:基因組沿著所有染色體從左到右鋪開,每個 SNP 畫成一個點,點的高度就是它與該性狀關聯的強弱。大多數點都貼著地面——沒有訊號。但這裡那裡,會有一柱點像城市天際線一樣向上尖起,標出基因組中某個區域,那裡某個版本的 SNP 在患病者中穩定地更常見。因為你檢驗了上百萬個位置,你必須為「什麼才算真訊號」設一道極其嚴苛的門檻——否則單憑機遇也會冒出假的尖峰——於是只有最高、最令人信服的那些柱子才會被採信。

還有第二個發人深省的事實。即便每一個命中都貨真價實,GWAS 找到的變異通常也只能解釋某性狀可遺傳性中不大的一部分,而且每一個都只把風險挪動一點點。大多數 GWAS 命中還落在基因*之外*——落在你前面見過的、由計算註釋出來的調控性非編碼區段裡——它們改變的是一個基因*被表達多少*,而非它所造出的蛋白質。所以 GWAS 很少為一個故事畫上句號;它只是揭開一個故事的序幕。它指向某個區域,而後續那緩慢的工作——弄清究竟是哪個基因受了影響、在哪種細胞類型裡、通過什麼機制——才是真正做生物學的地方。掃描很快;理解卻不快。

為什麼一張零件清單還不夠

GWAS 更深一層的教訓——成百上千個微小的貢獻、大多落在調控區、彼此還相互作用——指向了一個對任何單個基因來說都太大的問題。當人類基因組計劃完成時,許多人本以為一張約兩萬個基因的零件清單就能大致解釋我們。結果並沒有,而原因令人謙卑:一個基因組不是一份你按順序讀下來的藍圖,它是*一份所有配料都彼此作用的食譜*。一個基因的蛋白質把第二個基因開啟,第二個又壓制第三個,第三個再反饋回來抑制第一個。把每一個零件都認全,對理解活細胞的幫助,並不比一架鋼琴的零件清單對理解一首奏鳴曲的幫助更多。

這正是[[systems-biology|系統生物學]]的奠基洞見:要理解一個細胞,你不能只研究它的零件,還得研究*零件之間的相互作用*,而且常常得把它們一併研究。是新出現的各種組學資料——基因組、來自 RNA 定序的轉錄組、為每一種蛋白質編目的蛋白質組——才讓這件事變得可想。系統生物學不再一次只看一個基因,而是把整份清單端上來,去問它是*如何接線連在一起*的。描述接線最自然的語言,就是網路:把每一個基因或蛋白質畫成一個點(一個*節點*),在任意兩個有相互作用的之間畫一條線(一條*邊*)。細胞的生物學,就變成了一張圖。

兩類網路:誰調控誰,誰接觸誰

有兩類網路最為重要。第一類是[[gene-regulatory-network|基因調控網路]],而它的每一塊零件,你在前面幾級裡其實都已經握在手中。回想一下:轉錄因子是一種能結合 DNA、把基因開或關的蛋白質。現在把鏡頭拉遠:這個轉錄因子本身也由某個基因編碼,而那個基因又被*別的*轉錄因子開或關。從每個調控基因畫一支箭,指向它所控制的每一個基因,整個基因組就顯影成一張電路圖——誰開啟誰。這些箭有方向、也有正負之分(激活或抑制),所以調控網路與其說是一張靜態的地圖,不如說是一塊*邏輯板*。

第二類是[[protein-interaction-network|蛋白質相互作用網路]],有時也叫*互作組*。蛋白質很少單打獨鬥;它們彼此抓握,組裝成機器、接力傳遞訊號。把每一對在物理上相互接觸的蛋白質都標出來——每個作一個節點,每處接觸作一條邊——你就得到一張鋪展開的網。那張網裡緊密互連的團塊,往往就是*功能模組*:一組協同搭建某台機器、或共同運行某條通路的蛋白質,就像你前面見過的訊號級聯那樣。網路不只把蛋白質羅列出來;它還按照「它們一同幹的活」把它們歸了類。

GENE REGULATORY NETWORK            PROTEIN INTERACTION NETWORK
(arrows = who controls whom)       (lines = who physically touches)

   TF-A --activates--> gene B          P1 --- P2
     |                  |               |  \   / |
  represses         activates           |   P3  |
     |                  v               |  /   \ |
     +----------------> gene C          P4 --- P5

  directed, signed circuit            undirected web; dense
  -> behaves like logic               clumps = functional modules
對同一個細胞兩種互補的看法。基因調控網路是一張有方向、帶正負的電路(誰把誰開或關);蛋白質相互作用網路則是一張無方向的網,其中密集的團塊揭示出那些作為一台機器協同工作的蛋白質。

湧現:當網路做出任何單個基因都做不到的事

畫出這些網路的回報,在於它們能解釋任何單個組件都不具備的行為——生物學家稱之為湧現行為。來看一個微小而真實的回路模體:基因 A 造出一種蛋白質,去壓制基因 A 自己的生產。這一條負反饋環,僅僅是一個節點繞回自身,就給了細胞一樣單個基因給不了的東西——*穩定*,把它的蛋白質水平穩穩頂住噪聲,恰如一台恆溫器把房間維持在某個溫度附近。把兩個抑制因子接起來,讓彼此互相關閉,這一對就成了一個有兩個穩定狀態的*雙穩開關*,一種能翻轉、又能保持翻轉的細胞記憶。在環路上加一段延遲,你就得到一個會振盪的*時鐘*——這正是晝夜節律的基礎。記憶、節律、穩健——這些沒有一樣住在任何單個基因裡。它們住在*連接的圖樣*之中。

  1. 測量零件:用基因組定序、RNA 定序和蛋白質組學,把在場的基因、轉錄本和蛋白質都編目,並看它們的水平在不同條件下如何變化。
  2. 推斷接線:從這些測量出發,推算出哪些節點影響哪些節點——把調控網路和相互作用網路的邊畫出來。
  3. 建模並預測:把接線變成方程或一套電腦模擬,把它跑起來,預測當你擾動某個節點時這個系統應當如何表現。
  4. 檢驗並修正:回到實驗台,把那個節點敲除或過量表達,把細胞真實的反應與預測相比照——然後在模型出錯的地方把它修好。

請留意這個循環如何為整整這一級的旅程畫上閉環。我們從定序一切開始,組裝並比較基因組;如今我們把那一座座資料之山餵進網路與模型,模擬活的系統,再繞回濕實驗去檢驗預測。這正是為什麼分子生物學長出了一個沉甸甸的定量、計算的另一半:理解整個系統,既是移液器的活,也同樣是生物資訊學和數學的活。它也正在重塑醫學——不再是一個基因、一種藥,精準醫學越來越多地讀取一個人的整個基因組,去問他在這些網路中處於何處,從而讓一種療法能瞄準整個系統,而不只是某一個壞掉的零件。