转录组学与单细胞

同一个基因组，不同的细胞

这里有一个理应让人觉得有点不可思议的事实。在你大脑里放电的那个神经元，和在你肝脏里过滤毒素的那个细胞，带着*一模一样*的基因组——逐个字母、整整三十亿个碱基，在你几乎每一个细胞里都相同。给基因组测序——也就是前几篇导览的那件事——把这本共有的书读上一遍，基本就算完成了。可一个神经元和一个肝细胞，无论模样还是行为都判若两物。单凭基因组无法解释这种差异，因为基因组是同一份。真正不同的，是转录组：一个细胞在某一刻正在主动制造的那一套 RNA 分子——换句话说，它把哪些基因*开启*了、开得多响。

其背后的机器你在前面几级已经熟悉了：基因表达把一个基因变成 RNA、然后通常再变成蛋白质，而你花了整整几个分支去学转录是如何被转录因子、增强子和染色质所调控的。肝细胞把白蛋白基因和解毒酶基因开得很足，同时让神经元专属的基因保持沉默；神经元则反过来。基因组是一个细胞*可能*制造之物的完整*目录*；转录组则是它此刻正在制造之物的*点菜单*。基因组学给了我们目录。这篇导览说的，是怎么读那些点菜单。

RNA 测序：一次数清每一条转录本

那么，怎么用一台为读 DNA 而造的机器去读 RNA 呢？诀窍是巧妙地重用一种你已经见过的酶。RNA 测序先把一份样本里所有的 RNA 收集起来，再用反转录酶把它复制回 DNA——这种酶让中心法则*倒着*跑，RNA -> DNA，正是它的存在证明了中心法则从未禁止信息朝另一个方向流动。这份 RNA 的 DNA 拷贝叫作 cDNA，接着就被送进上一篇里那同一台下一代测序仪。细胞里的每一条转录本，都化成了机器上的读长。

这里有一个概念上的跃迁，正是它让 RNA 测序不只是「给 RNA 测序」那么简单。当你给一个基因组测序时，每一个位置在你的读长里出现的次数都大致相同——你把每个字母读到一次，因为它在那里只有一份。可在 RNA 测序里，一个被转录得*很猛*的基因会造出成千上万份 mRNA 拷贝，一个只微微开着的基因只造出寥寥几份，而一个沉默的基因一份都不造。于是落在某个基因上的*读长数目*，就是对那个基因表达得有多强的一次直接测量。你不再只是在读序列——你是在*计数*。把读长计数逐个基因排开，你就得到了一幅关于细胞此刻究竟在做什么的定量画像。

这让 RNA 测序成了回答生物学家最常问的那个问题的天然工具：*什么变了？* 拿一批细胞用药处理、另一批不处理，把两份转录组都测一遍，那些读长计数骤升或骤降的基因，就是作出了响应的基因。因为 RNA 测序读的是真正的转录本、而非靠猜，它还能逮到一份基因清单逮不到的东西——它看得见可变剪接，也就是同一个基因在不同细胞里产出不同的 mRNA，它也能拾起来自那些从没被注释成基因的区域的 RNA。更早的方法、DNA 微阵列，只能测量你早已知道、印在芯片上的那些转录本；而 RNA 测序则倾听在场的一切。

「打成一杯奶昔」的陷阱

在普通的 RNA 测序里藏着一个不动声色的谎言，而把它点破，正是理解单细胞为何接踵而至的关键。为了给早期的机器凑够 RNA，你把一整块*组织*——数以百万计的细胞——磨碎，再把汇集起来的 RNA 一锅测了。可一块组织从来都不是单一一种细胞。一小片肿瘤里含有癌细胞、免疫细胞、血管细胞和结缔组织，全都混在一起。批量 RNA 测序把它们扔进搅拌机，报出的是平均值。而一个平均值，可以描述一个其中并不存在任何实际成员的群体：它在统计上就等同于「平均每户 1.8 个孩子」那种说法。

设想两块组织。在第一块里，每个细胞都以中等水平表达某个基因。在第二块里，一半的细胞把那个基因开到最大，另一半则让它彻底沉默。批量 RNA 测序对两者报出*同样的中等平均值*——可它们在生物学上再不同不过了。你把一幅鲜明的马赛克抹成了一片灰平。这种盲点最要命的地方，恰恰是它最伤人的地方：藏在肿瘤里那少数几个抗药细胞、组织里那一个罕见的干细胞、那一小撮最先开始改变的细胞。搅拌机把它们抹掉了。

单细胞测序：一次只读一个细胞

解法正如其名：别再打成一杯，而是一次只读一个细胞。单细胞测序（最常见的是单细胞 RNA 测序）先把一块组织温和地解离成一团单个细胞的悬液，再在测序之前把每一个细胞各自隔开。最妙的一招是条形码。在这些细胞被重新汇集起来去测序之前，来自某一个细胞的每一条转录本，都被贴上一段对那个细胞而言独一无二的 DNA「条形码」。如今你可以把上百万条转录本汇在一次高效的运行里一起测，事后再靠读取条形码、把读长归拢回它们各自的来源细胞——就像在门口给每位来宾的手上盖个戳，这样即便大家混在一起，你仍分得清谁说了什么。

把组织解离成一锅彼此分开的单个细胞汤。
把每个细胞单独困住——经典做法是关进它自己一颗微小的油滴里——同时配上一颗小珠，珠上带着上百万份同一个细胞专属条形码的拷贝。
在每一颗油滴内，把那个细胞的 RNA 复制成 cDNA，并给每一份拷贝都盖上这颗油滴的条形码，于是来源细胞的身份就被写进了分子本身。
把所有东西汇到一起，在一次大运行里全部测掉，再用软件按条形码把读长拆分开——为成千上万个细胞各自重建出一份独立的表达谱。

回报是一种全然不同的图景。你得到的不再是组织那一份被平均掉的谱，而是成千上万份各自独立的谱，你还能让计算机按表达的相似程度把细胞分组。开启同一批基因的细胞会聚到一起，而每一簇结果都是一种真实的细胞类型——这边是 T 细胞，那边是肝细胞，再那边是一群从没人命名过的稀有细胞。那些被批量方法描绘成均一一片的组织，化开成了由几十种不同状态构成的丰富图谱。这正是单细胞测序在短短十来年里重塑了免疫学、肿瘤生物学和发育生物学的原因：它让我们看见了人群之中的个体。

RNA 之外：其他「组学」

一旦你养成了一次测量生物学一整个*层级*的习惯，「组学」这个后缀就开始蔓延。基因组给出基因组学，转录组给出转录组学——而再往下一层，是蛋白质组，也就是一个细胞真正含有的那整套蛋白质。这之所以要紧，是因为转录组终究只是一份预报：一条 mRNA 是*下了的单*，而非*交付的蛋白质*。翻译速率各异，蛋白质又各按各的节奏被修饰和降解，所以一条 mRNA 的量与它那蛋白质的量虽相关、却远谈不上相同。要知道究竟有哪些蛋白质真正在场，你必须直接去测量它们——那就是蛋白质组学。

不过蛋白质并不是由四个反复出现的字母组成的，所以你没法像给 DNA 测序那样去「测序」一个蛋白质组。担此重任的，是*质谱仪*：它把蛋白质打碎成肽段，再以极高的精度去称这些碎片的重量。因为每一种氨基酸都有已知的质量，碎片重量的图样就像一枚指纹，软件再把每一枚指纹比对回它所来自的蛋白质——甚至还能揭示那些让蛋白质开启或关闭的化学标签，比如磷酸基团。它与测序仪是根本不同的机器，这也正是为什么蛋白质组学在覆盖范围和易用度上一直落后于基因组学。

LAYER          MEASURES                         MAIN TOOL
-----------    ------------------------------    --------------------
genome      -> what a cell COULD do (DNA)         DNA sequencing
transcriptome -> what it is SAYING (RNA)          RNA-seq
proteome    -> what it actually BUILT (protein)   mass spectrometry
metabolome  -> the small molecules it MADE        mass spec / NMR

DNA --transcribed--> RNA --translated--> protein --acts on--> metabolites
(each downstream layer is closer to phenotype, and harder to measure)

各「组学」层级顺着中心法则一路向下：每往下一步，就更靠近细胞实际所做之事，却也更难被完整测量。没有任何单独一层能讲完整个故事。

这份清单还在往下列：代谢组是一个细胞全部小分子的清册——糖、脂质、代谢的产物——而表观基因组则绘出 DNA 与组蛋白上的化学标记，二者一并归于代谢组学与表观基因组学之下。没有任何单独一层就是真理；每一层都只是一个切面。真正的力量来自把它们叠起来、追问它们如何拼合到一起，这也正是为什么这一切测量的自然续篇，是系统生物学——而把这些数字的洪流变成真正的生物学洞见，再一次，是生物信息学的日常工作，也正是上一篇导览许诺过只会愈发壮大的那门学科。