全基因组关联研究、网络与系统生物学

从单个基因，到在数百万人之间展开的搜寻

在这条阶梯靠前的地方，你已经见过单个坏掉的基因如何引起一种单基因病——一个出错的蛋白质、一个清晰的故事，可一路追溯到某一段 DNA。但塞满医生日常的大多数性状，根本不是这个样子。身高、血压、2 型糖尿病或精神分裂症的风险：这些都是复杂的、多基因的性状，由成百上千个遗传变异共同塑造，每一个只把概率拨动一丝一毫，再和饮食、压力与偶然纠缠在一起。你没法靠研究某一个带着戏剧性突变的家族去找出这些变异。你需要一种办法，在*整个群体*之间扫遍*整个基因组*，从统计上去问：是哪些字母倾向于和这个性状一同出现。

这正是全基因组关联研究——也就是 GWAS——所做的事，而它之所以成为可能，全靠廉价的测序与基因分型让我们能以百万计地读取基因组。GWAS 的通用货币，是单核苷酸多态性，简称 SNP（读作「snip」）：基因组上某个位置，在不同人之间常常只差一个字母——比如我们大多数人在那儿带的是 A，而相当一部分人带的是 G。SNP 是人类最常见的一类遗传变异，每个基因组上都散落着数百万个，其中绝大多数完全无害。它们不过是*路标*——固定、易读、沿着每条染色体星星点点排开的地标。

GWAS 的窍门，就在于依靠这些路标。召集两大群人——比如一万名患病者和一万名未患病者——在每个人身上读取同样那一百来万个 SNP，然后逐个位置去数：这个 SNP 的某个版本，在患病组里出现得是否比在健康组里更频繁？把这件事做上百万遍，就会有少数几个 SNP 凸显出来，显示出与该疾病*相关联*。你事先并不需要知道是哪些基因要紧；你让整个基因组自己开口。这是一种无假设的科学——一次全面的扫荡，而非一次猜测。

读懂曼哈顿图——以及它诚实的局限

GWAS 的结果通常画成一张*曼哈顿图*：基因组沿着所有染色体从左到右铺开，每个 SNP 画成一个点，点的高度就是它与该性状关联的强弱。大多数点都贴着地面——没有信号。但这里那里，会有一柱点像城市天际线一样向上尖起，标出基因组中某个区域，那里某个版本的 SNP 在患病者中稳定地更常见。因为你检验了上百万个位置，你必须为「什么才算真信号」设一道极其严苛的门槛——否则单凭机遇也会冒出假的尖峰——于是只有最高、最令人信服的那些柱子才会被采信。

还有第二个发人深省的事实。即便每一个命中都货真价实，GWAS 找到的变异通常也只能解释某性状可遗传性中不大的一部分，而且每一个都只把风险挪动一点点。大多数 GWAS 命中还落在基因*之外*——落在你前面见过的、由计算注释出来的调控性非编码区段里——它们改变的是一个基因*被表达多少*，而非它所造出的蛋白质。所以 GWAS 很少为一个故事画上句号；它只是揭开一个故事的序幕。它指向某个区域，而后续那缓慢的工作——弄清究竟是哪个基因受了影响、在哪种细胞类型里、通过什么机制——才是真正做生物学的地方。扫描很快；理解却不快。

为什么一张零件清单还不够

GWAS 更深一层的教训——成百上千个微小的贡献、大多落在调控区、彼此还相互作用——指向了一个对任何单个基因来说都太大的问题。当人类基因组计划完成时，许多人本以为一张约两万个基因的零件清单就能大致解释我们。结果并没有，而原因令人谦卑：一个基因组不是一份你按顺序读下来的蓝图，它是*一份所有配料都彼此作用的食谱*。一个基因的蛋白质把第二个基因开启，第二个又压制第三个，第三个再反馈回来抑制第一个。把每一个零件都认全，对理解活细胞的帮助，并不比一架钢琴的零件清单对理解一首奏鸣曲的帮助更多。

这正是[[systems-biology|系统生物学]]的奠基洞见：要理解一个细胞，你不能只研究它的零件，还得研究*零件之间的相互作用*，而且常常得把它们一并研究。是新出现的各种组学数据——基因组、来自 RNA 测序的转录组、为每一种蛋白质编目的蛋白质组——才让这件事变得可想。系统生物学不再一次只看一个基因，而是把整份清单端上来，去问它是*如何接线连在一起*的。描述接线最自然的语言，就是网络：把每一个基因或蛋白质画成一个点（一个*节点*），在任意两个有相互作用的之间画一条线（一条*边*）。细胞的生物学，就变成了一张图。

两类网络：谁调控谁，谁接触谁

有两类网络最为重要。第一类是[[gene-regulatory-network|基因调控网络]]，而它的每一块零件，你在前面几级里其实都已经握在手中。回想一下：转录因子是一种能结合 DNA、把基因开或关的蛋白质。现在把镜头拉远：这个转录因子本身也由某个基因编码，而那个基因又被*别的*转录因子开或关。从每个调控基因画一支箭，指向它所控制的每一个基因，整个基因组就显影成一张电路图——谁开启谁。这些箭有方向、也有正负之分（激活或抑制），所以调控网络与其说是一张静态的地图，不如说是一块*逻辑板*。

第二类是[[protein-interaction-network|蛋白质相互作用网络]]，有时也叫*互作组*。蛋白质很少单打独斗；它们彼此抓握，组装成机器、接力传递信号。把每一对在物理上相互接触的蛋白质都标出来——每个作一个节点，每处接触作一条边——你就得到一张铺展开的网。那张网里紧密互连的团块，往往就是*功能模块*：一组协同搭建某台机器、或共同运行某条通路的蛋白质，就像你前面见过的信号级联那样。网络不只把蛋白质罗列出来；它还按照「它们一同干的活」把它们归了类。

GENE REGULATORY NETWORK            PROTEIN INTERACTION NETWORK
(arrows = who controls whom)       (lines = who physically touches)

   TF-A --activates--> gene B          P1 --- P2
     |                  |               |  \   / |
  represses         activates           |   P3  |
     |                  v               |  /   \ |
     +----------------> gene C          P4 --- P5

  directed, signed circuit            undirected web; dense
  -> behaves like logic               clumps = functional modules

对同一个细胞两种互补的看法。基因调控网络是一张有方向、带正负的电路（谁把谁开或关）；蛋白质相互作用网络则是一张无方向的网，其中密集的团块揭示出那些作为一台机器协同工作的蛋白质。

涌现：当网络做出任何单个基因都做不到的事

画出这些网络的回报，在于它们能解释任何单个组件都不具备的行为——生物学家称之为涌现行为。来看一个微小而真实的回路模体：基因 A 造出一种蛋白质，去压制基因 A 自己的生产。这一条负反馈环，仅仅是一个节点绕回自身，就给了细胞一样单个基因给不了的东西——*稳定*，把它的蛋白质水平稳稳顶住噪声，恰如一台恒温器把房间维持在某个温度附近。把两个抑制因子接起来，让彼此互相关闭，这一对就成了一个有两个稳定状态的*双稳开关*，一种能翻转、又能保持翻转的细胞记忆。在环路上加一段延迟，你就得到一个会振荡的*时钟*——这正是昼夜节律的基础。记忆、节律、稳健——这些没有一样住在任何单个基因里。它们住在*连接的图样*之中。

测量零件：用基因组测序、RNA 测序和蛋白质组学，把在场的基因、转录本和蛋白质都编目，并看它们的水平在不同条件下如何变化。
推断接线：从这些测量出发，推算出哪些节点影响哪些节点——把调控网络和相互作用网络的边画出来。
建模并预测：把接线变成方程或一套计算机模拟，把它跑起来，预测当你扰动某个节点时这个系统应当如何表现。
检验并修正：回到实验台，把那个节点敲除或过量表达，把细胞真实的反应与预测相比照——然后在模型出错的地方把它修好。

请留意这个循环如何为整整这一级的旅程画上闭环。我们从测序一切开始，组装并比较基因组；如今我们把那一座座数据之山喂进网络与模型，模拟活的系统，再绕回湿实验去检验预测。这正是为什么分子生物学长出了一个沉甸甸的定量、计算的另一半：理解整个系统，既是移液器的活，也同样是生物信息学和数学的活。它也正在重塑医学——不再是一个基因、一种药，精准医学越来越多地读取一个人的整个基因组，去问他在这些网络中处于何处，从而让一种疗法能瞄准整个系统，而不只是某一个坏掉的零件。