JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

比较基因组学与功能基因组学

一旦你能读出整个基因组,下一个问题就是:哪些部分要紧、它们各自在做什么。演化回答前一个问题——它把它拒绝改动的地方指给你看;而那些大型功能基因组学项目回答后一个——直接把基因组的开关与信号绘成地图。

从一个基因组,到一整架基因组

在上一篇里,你拼装并注释了单个基因组——把读段缝成染色体,又在基因周围画下最可能的边界线。可孤零零的一个基因组,就像一本你几乎不会读的语言写成的书:你看得见词,却分不清哪些承载着意义、哪些只是填充。人类基因组约有三十亿个字母,却只有大约两万个蛋白质编码基因,它们加起来只占序列不到百分之二。所以这一级最灼人的问题,不是*基因组里有什么*,而是*哪些部分要紧、它们各自在做什么*。[[molbio-comparative-genomics|比较基因组学]]用一个极简单的招法回答前半个问题:与其更用力地盯着一个基因组,不如把好几个并排摊开,让演化亲口告诉你它在意的是什么。

这套逻辑,立足于你在阶梯很靠下处见过的一件事:大多数突变是中性的,而改变会在数百万年里稳稳地累积。把它向前推演到许多源自同一祖先的物种身上,一种模式便浮现出来。无关紧要的序列会自由漂变——它像一堵旧墙招来涂鸦那样收集突变,直到两个物种的版本几乎认不出彼此。可那些*确实*在做要紧事的序列却无法漂变:那里几乎每一处改动都会弄坏基因,被[[purifying-selection|纯化选择]]——对有害变体的缓慢驱逐——悄悄清除。结果便是:要紧的 DNA 在物种之间顽固地保持不变,而无关紧要的 DNA 则乱作一团。保守,就是功能的指纹——而它只有在你去比较时才看得见。

直系同源、旁系同源,与基因的家谱

在你能跨物种比较基因之前,必须先把它们正确地配对起来,而这里藏着一个关键的区分。当你找到的人类基因和小鼠基因显然是亲戚——都源自人鼠最近共同祖先里*同一个*基因——它们就是直系同源基因。它们是「两个物种里的同一个基因」,是你想了解功能时要拿来比较的那一对,因为它们通常仍在做同一件工作。但基因也会在基因组*内部*增殖:一段 DNA 偶尔会被复制,留下并排的两份拷贝,这些拷贝及其后代便是旁系同源基因——生于复制、而非生于物种分化的亲戚。分清直系同源与旁系同源,是任何比较谨慎的第一步,因为把它们混为一谈,会悄悄地把建在其上的一切都败坏掉。

不过旁系同源基因并非噪音——它们正是演化发明新事物的方式。一个基因被复制之后,一份拷贝可以继续干原来的活,多出来的那份则得以自由漂变、捡起若只有单份拷贝时必定致命的突变。多数备份就这么烂成一个[[gene-families-and-pseudogenes|假基因]]——一段不再制造蛋白质的破残遗迹。但偶尔,那份被解放的拷贝会撞上一个有用的新角色,于是一个基因家族就此诞生——就像那一簇珠蛋白基因,全是同一祖先的旁系同源基因,如今分别专司在胚胎、胎儿和成人体内运送氧气。所以「复制,继之以分化」是生物学创造新意的主要引擎之一,而你能直接从一个基因家族的序列相似性模式里,读出它的整部历史。

读出选择:保守位点与 dN/dS

一旦直系同源基因被对齐,你就能把选择一直读到单个字母。把十几种哺乳动物里的同一个基因叠起来,一列一列地看:有些位置在每个物种里都*完全相同*,另一些则随意变化。那些冻结的列就是[[conserved-variable-sites|保守位点]]——一种酶的活性位点残基、一个关键调控因子紧紧攥住的那个碱基——在那些地方,改变是致命的,所以从未留存。变化的列容许改动,于是收集了改动。这张比对,作为一幅保守性的热图来读,是早在你做一个实验之前、就能指出*一个基因里究竟哪些字母在真正干活*的最有力方法。

对蛋白质编码基因,还有一件更锋利的工具,它倚靠的是你早已熟悉的遗传密码的冗余。由于密码是简并的,有些 DNA 改动会换掉氨基酸(一次*非同义*改动,dN),另一些则让蛋白质毫发无损(一次*同义*改动,dS)。同义改动对选择几乎是隐形的,于是它们以中性的背景速率堆积;非同义改动会改变蛋白质,因而被选择过滤。把这两个速率作为比值来比较——[[dn-ds-ratio|dN/dS 比值]]——就把那道过滤变成了一个数字。dN/dS 远小于 1,意味着改变蛋白质的突变正被清除:这个基因正受纯化选择,保守、要紧。约等于 1,意味着改动可以自由通过,暗示该序列不受约束。而那罕见的*大于* 1 的值,则是相反那股力量的警示旗——正选择,改变被主动青睐,这是一个基因正被推着演化的标志,就像一种免疫蛋白与病原体赛跑时那样。

align one gene across species, read each column:

  human   ... A T G  C A C  G G T  A A A  T C C ...
  mouse   ... A T G  C A T  G G C  A A A  A C C ...
  chimp   ... A T G  C A C  G G T  A A G  T C C ...
  dog     ... A T G  C A T  G G A  A A A  T C T ...
            |  | | |  ^      ^      | | ^
          conserved  silent (dS)   conserved   varies

  dN/dS  <  1   ->  purifying selection  (gene matters, conserved)
  dN/dS  ~~ 1   ->  little constraint    (drifting / neutral)
  dN/dS  >  1   ->  positive selection   (change favoured)
把直系同源基因叠起来,就把演化变成了一份读数:冻结的列标出功能位点,而改变蛋白质(dN)与无声(dS)替换之比,给作用于整个基因的选择打了分。

共线性,与保守的非编码岛屿

比较也能在单个基因的层次之上起作用。当你把两个物种的整条染色体对齐,会发现一些长长的区块,其中*同样的基因以同样的次序排列*——一片共有的基因邻里,原封不动地从共同祖先那里继承下来。这种被保留的基因次序叫做共线性,它极其有用:它让你把一个研究透彻的基因组里的知识,搬到一个刚测完序的基因组上(「小鼠里这个地标旁边的基因,应该就是人类里对应地标旁边的那个基因」),而共线性*断裂*之处,则标出了在演化时间里重塑了基因组的那些染色体重排——倒位、融合、易位。共线性,是即便单个字母翻腾不休、也依然存活下来的大尺度语法。

可比较最惊人的回报,落在*非编码*基因组里。回想那个过早的标签「垃圾 DNA」——那个以为我们基因组里蛋白质编码基因之外那 98% 都是惰性填充物的假设。比较基因组学优雅地拆穿了这个想法。扫描对齐后的哺乳动物基因组,翻出了成千上万段不编码任何蛋白质、却和最关键的基因一样保守的序列——其中有些在数亿年间几乎纹丝未变。这些保守非编码元件绝不可能是偶然冻结下来的;如此不懈的保守,只在纯化选择守护着某项功能时才会发生。而事实也证明,它们中许多正是调控开关——决定基因何时、何处开启的增强子及其他控制元件。演化一直在悄悄替我们把调控基因组标记出来;我们只是得去比较,才看得见那些标记。

功能基因组学:直接拷问基因组

比较告诉你某一段*要紧*;它很少告诉你*它在做什么*。为此,功能基因组学采取相反的进路:与其从演化推断功能,不如走遍整个基因组,一个位置一个位置地直接测量活性。一个调控蛋白究竟落在 DNA 的什么地方?哪些区域被转录成 RNA——哪怕它们不制造任何蛋白质?哪些段落被紧紧裹进沉默的染色质里,哪些又敞开、可及?这每一项都是真实、可测的信号,而在全基因组范围内读取它们,就把一串静止的字母序列,变成了一幅活的地图——记下在某种特定细胞里、每个部分正*在做*什么。

这里的里程碑式工程,是[[encode-project|ENCODE 计划]]——DNA 元件百科全书——一场庞大、多实验室协作的行动,要靠在许多细胞类型上叠加几十种这样的检测,给人类基因组的每一个碱基都指派一项功能。ENCODE 绘出了转录因子在哪里结合、哪些组蛋白标记装点着哪些区域、染色质在何处敞开,以及基因组有多少被抄录成 RNA。它的头条发现既轰动又有争议:基因组的一大部分都表现出*某种*生化活性。这听起来像是「垃圾 DNA」的最终死刑,但这里诚实至关重要——「具有生化活性」是个比「在自然选择加以维持这层意义上具有功能」弱得多的说法。有些普遍存在的活性是真正的调控;有些则是附带的噪音,是一个繁忙的基因组甩出的低水平普遍转录。这两种视角——保守 vs. 实测活性——是互补的,而最值得信赖的功能元件,正是被这两者*同时*标记出来的那些。

合起来:从序列里读出历史与功能

退后一步,这篇里的两半便咔哒一声合上了。比较基因组学把演化当作一场免费的、长达十亿年的实验:通过追问选择拒绝改动的是什么,它告诉你一个基因组里*哪些*部分要紧——保守的编码位点、低 dN/dS 的基因、冻结的非编码岛屿、被保留的共线性。功能基因组学接着直接拷问基因组,问这些要紧的部分*在做什么*——蛋白质在哪里结合、什么被转录、什么处于敞开状态——构建起 ENCODE 所开创的那张调控地图。一个从序列里读历史;另一个从细胞里读活性;而在两者中*都*亮起来的那些元件,正是你最可信赖的。

这也悄悄重构了那个关于复杂性的古老谜题。人类只携带约两万个蛋白质编码基因——比某些植物还少,按同样的数法也不比一条小小的线虫多——所以基因的*清单*不可能是让我们如此精密的原因。比较与功能基因组学指向了答案:差别大半活在调控基因组里,活在那张决定每个基因何时、何处发动的浩瀚开关之网中。基因是一份在动物间广泛共享的零件清单;而接线图,才是大量分化藏身之处。这正好把接力棒漂亮地交给这一级余下的内容——在那里,单细胞方法与系统思维会把这张*什么可能发生*的静态地图,逐个基因、逐个细胞地,变成*什么正在发生*的动态故事。