轉錄組學與單細胞

同一個基因組，不同的細胞

這裡有一個理應讓人覺得有點不可思議的事實。在你大腦裡放電的那個神經元，和在你肝臟裡過濾毒素的那個細胞，帶著*一模一樣*的基因組——逐個字母、整整三十億個鹼基，在你幾乎每一個細胞裡都相同。給基因組定序——也就是前幾篇導覽的那件事——把這本共有的書讀上一遍，基本就算完成了。可一個神經元和一個肝細胞，無論模樣還是行為都判若兩物。單憑基因組無法解釋這種差異，因為基因組是同一份。真正不同的，是轉錄組：一個細胞在某一刻正在主動製造的那一套 RNA 分子——換句話說，它把哪些基因*開啟*了、開得多響。

其背後的機器你在前面幾級已經熟悉了：基因表達把一個基因變成 RNA、然後通常再變成蛋白質，而你花了整整幾個分支去學轉錄是如何被轉錄因子、增強子和染色質所調控的。肝細胞把白蛋白基因和解毒酶基因開得很足，同時讓神經元專屬的基因保持沉默；神經元則反過來。基因組是一個細胞*可能*製造之物的完整*目錄*；轉錄組則是它此刻正在製造之物的*點菜單*。基因組學給了我們目錄。這篇導覽說的，是怎麼讀那些點菜單。

RNA 定序：一次數清每一條轉錄本

那麼，怎麼用一台為讀 DNA 而造的機器去讀 RNA 呢？訣竅是巧妙地重用一種你已經見過的酶。RNA 定序先把一份樣本裡所有的 RNA 收集起來，再用反轉錄酶把它複製回 DNA——這種酶讓中心法則*倒著*跑，RNA -> DNA，正是它的存在證明了中心法則從未禁止資訊朝另一個方向流動。這份 RNA 的 DNA 拷貝叫作 cDNA，接著就被送進上一篇裡那同一台下一代定序儀。細胞裡的每一條轉錄本，都化成了機器上的讀長。

這裡有一個概念上的躍遷，正是它讓 RNA 定序不只是「給 RNA 定序」那麼簡單。當你給一個基因組定序時，每一個位置在你的讀長裡出現的次數都大致相同——你把每個字母讀到一次，因為它在那裡只有一份。可在 RNA 定序裡，一個被轉錄得*很猛*的基因會造出成千上萬份 mRNA 拷貝，一個只微微開著的基因只造出寥寥幾份，而一個沉默的基因一份都不造。於是落在某個基因上的*讀長數目*，就是對那個基因表達得有多強的一次直接測量。你不再只是在讀序列——你是在*計數*。把讀長計數逐個基因排開，你就得到了一幅關於細胞此刻究竟在做什麼的定量畫像。

這讓 RNA 定序成了回答生物學家最常問的那個問題的天然工具：*什麼變了？* 拿一批細胞用藥處理、另一批不處理，把兩份轉錄組都測一遍，那些讀長計數驟升或驟降的基因，就是作出了響應的基因。因為 RNA 定序讀的是真正的轉錄本、而非靠猜，它還能逮到一份基因清單逮不到的東西——它看得見可變剪接，也就是同一個基因在不同細胞裡產出不同的 mRNA，它也能拾起來自那些從沒被註釋成基因的區域的 RNA。更早的方法、DNA 微陣列，只能測量你早已知道、印在晶片上的那些轉錄本；而 RNA 定序則傾聽在場的一切。

「打成一杯奶昔」的陷阱

在普通的 RNA 定序裡藏著一個不動聲色的謊言，而把它點破，正是理解單細胞為何接踵而至的關鍵。為了給早期的機器湊夠 RNA，你把一整塊*組織*——數以百萬計的細胞——磨碎，再把匯集起來的 RNA 一鍋測了。可一塊組織從來都不是單一一種細胞。一小片腫瘤裡含有癌細胞、免疫細胞、血管細胞和結締組織，全都混在一起。批量 RNA 定序把它們扔進攪拌機，報出的是平均值。而一個平均值，可以描述一個其中並不存在任何實際成員的群體：它在統計上就等同於「平均每戶 1.8 個孩子」那種說法。

設想兩塊組織。在第一塊裡，每個細胞都以中等水平表達某個基因。在第二塊裡，一半的細胞把那個基因開到最大，另一半則讓它徹底沉默。批量 RNA 定序對兩者報出*同樣的中等平均值*——可它們在生物學上再不同不過了。你把一幅鮮明的馬賽克抹成了一片灰平。這種盲點最要命的地方，恰恰是它最傷人的地方：藏在腫瘤裡那少數幾個抗藥細胞、組織裡那一個罕見的幹細胞、那一小撮最先開始改變的細胞。攪拌機把它們抹掉了。

單細胞定序：一次只讀一個細胞

解法正如其名：別再打成一杯，而是一次只讀一個細胞。單細胞定序（最常見的是單細胞 RNA 定序）先把一塊組織溫和地解離成一團單個細胞的懸液，再在定序之前把每一個細胞各自隔開。最妙的一招是條碼。在這些細胞被重新匯集起來去定序之前，來自某一個細胞的每一條轉錄本，都被貼上一段對那個細胞而言獨一無二的 DNA「條碼」。如今你可以把上百萬條轉錄本匯在一次高效的運行裡一起測，事後再靠讀取條碼、把讀長歸攏回它們各自的來源細胞——就像在門口給每位來賓的手上蓋個戳，這樣即便大家混在一起，你仍分得清誰說了什麼。

把組織解離成一鍋彼此分開的單個細胞湯。
把每個細胞單獨困住——經典做法是關進它自己一顆微小的油滴裡——同時配上一顆小珠，珠上帶著上百萬份同一個細胞專屬條碼的拷貝。
在每一顆油滴內，把那個細胞的 RNA 複製成 cDNA，並給每一份拷貝都蓋上這顆油滴的條碼，於是來源細胞的身分就被寫進了分子本身。
把所有東西匯到一起，在一次大運行裡全部測掉，再用軟體按條碼把讀長拆分開——為成千上萬個細胞各自重建出一份獨立的表達譜。

回報是一種全然不同的圖景。你得到的不再是組織那一份被平均掉的譜，而是成千上萬份各自獨立的譜，你還能讓電腦按表達的相似程度把細胞分組。開啟同一批基因的細胞會聚到一起，而每一簇結果都是一種真實的細胞類型——這邊是 T 細胞，那邊是肝細胞，再那邊是一群從沒人命名過的稀有細胞。那些被批量方法描繪成均一一片的組織，化開成了由幾十種不同狀態構成的豐富圖譜。這正是單細胞定序在短短十來年裡重塑了免疫學、腫瘤生物學和發育生物學的原因：它讓我們看見了人群之中的個體。

RNA 之外：其他「組學」

一旦你養成了一次測量生物學一整個*層級*的習慣，「組學」這個後綴就開始蔓延。基因組給出基因組學，轉錄組給出轉錄組學——而再往下一層，是蛋白質組，也就是一個細胞真正含有的那整套蛋白質。這之所以要緊，是因為轉錄組終究只是一份預報：一條 mRNA 是*下了的單*，而非*交付的蛋白質*。翻譯速率各異，蛋白質又各按各的節奏被修飾和降解，所以一條 mRNA 的量與它那蛋白質的量雖相關、卻遠談不上相同。要知道究竟有哪些蛋白質真正在場，你必須直接去測量它們——那就是蛋白質組學。

不過蛋白質並不是由四個反覆出現的字母組成的，所以你沒法像給 DNA 定序那樣去「定序」一個蛋白質組。擔此重任的，是*質譜儀*：它把蛋白質打碎成肽段，再以極高的精度去稱這些碎片的重量。因為每一種胺基酸都有已知的質量，碎片重量的圖樣就像一枚指紋，軟體再把每一枚指紋比對回它所來自的蛋白質——甚至還能揭示那些讓蛋白質開啟或關閉的化學標籤，比如磷酸基團。它與定序儀是根本不同的機器，這也正是為什麼蛋白質組學在覆蓋範圍和易用度上一直落後於基因組學。

LAYER          MEASURES                         MAIN TOOL
-----------    ------------------------------    --------------------
genome      -> what a cell COULD do (DNA)         DNA sequencing
transcriptome -> what it is SAYING (RNA)          RNA-seq
proteome    -> what it actually BUILT (protein)   mass spectrometry
metabolome  -> the small molecules it MADE        mass spec / NMR

DNA --transcribed--> RNA --translated--> protein --acts on--> metabolites
(each downstream layer is closer to phenotype, and harder to measure)

各「組學」層級順著中心法則一路向下：每往下一步，就更靠近細胞實際所做之事，卻也更難被完整測量。沒有任何單獨一層能講完整個故事。

這份清單還在往下列：代謝組是一個細胞全部小分子的清冊——糖、脂質、代謝的產物——而表觀基因組則繪出 DNA 與組蛋白上的化學標記，二者一併歸於代謝組學與表觀基因組學之下。沒有任何單獨一層就是真理；每一層都只是一個切面。真正的力量來自把它們疊起來、追問它們如何拼合到一起，這也正是為什麼這一切測量的自然續篇，是系統生物學——而把這些數字的洪流變成真正的生物學洞見，再一次，是生物資訊學的日常工作，也正是上一篇導覽許諾過只會愈發壯大的那門學科。