从单个基因,到在数百万人之间展开的搜寻
在这条阶梯靠前的地方,你已经见过单个坏掉的基因如何引起一种单基因病——一个出错的蛋白质、一个清晰的故事,可一路追溯到某一段 DNA。但塞满医生日常的大多数性状,根本不是这个样子。身高、血压、2 型糖尿病或精神分裂症的风险:这些都是复杂的、多基因的性状,由成百上千个遗传变异共同塑造,每一个只把概率拨动一丝一毫,再和饮食、压力与偶然纠缠在一起。你没法靠研究某一个带着戏剧性突变的家族去找出这些变异。你需要一种办法,在*整个群体*之间扫遍*整个基因组*,从统计上去问:是哪些字母倾向于和这个性状一同出现。
这正是全基因组关联研究——也就是 GWAS——所做的事,而它之所以成为可能,全靠廉价的测序与基因分型让我们能以百万计地读取基因组。GWAS 的通用货币,是单核苷酸多态性,简称 SNP(读作「snip」):基因组上某个位置,在不同人之间常常只差一个字母——比如我们大多数人在那儿带的是 A,而相当一部分人带的是 G。SNP 是人类最常见的一类遗传变异,每个基因组上都散落着数百万个,其中绝大多数完全无害。它们不过是*路标*——固定、易读、沿着每条染色体星星点点排开的地标。
GWAS 的窍门,就在于依靠这些路标。召集两大群人——比如一万名患病者和一万名未患病者——在每个人身上读取同样那一百来万个 SNP,然后逐个位置去数:这个 SNP 的某个版本,在患病组里出现得是否比在健康组里更频繁?把这件事做上百万遍,就会有少数几个 SNP 凸显出来,显示出与该疾病*相关联*。你事先并不需要知道是哪些基因要紧;你让整个基因组自己开口。这是一种无假设的科学——一次全面的扫荡,而非一次猜测。
读懂曼哈顿图——以及它诚实的局限
GWAS 的结果通常画成一张*曼哈顿图*:基因组沿着所有染色体从左到右铺开,每个 SNP 画成一个点,点的高度就是它与该性状关联的强弱。大多数点都贴着地面——没有信号。但这里那里,会有一柱点像城市天际线一样向上尖起,标出基因组中某个区域,那里某个版本的 SNP 在患病者中稳定地更常见。因为你检验了上百万个位置,你必须为「什么才算真信号」设一道极其严苛的门槛——否则单凭机遇也会冒出假的尖峰——于是只有最高、最令人信服的那些柱子才会被采信。
还有第二个发人深省的事实。即便每一个命中都货真价实,GWAS 找到的变异通常也只能解释某性状可遗传性中不大的一部分,而且每一个都只把风险挪动一点点。大多数 GWAS 命中还落在基因*之外*——落在你前面见过的、由计算注释出来的调控性非编码区段里——它们改变的是一个基因*被表达多少*,而非它所造出的蛋白质。所以 GWAS 很少为一个故事画上句号;它只是揭开一个故事的序幕。它指向某个区域,而后续那缓慢的工作——弄清究竟是哪个基因受了影响、在哪种细胞类型里、通过什么机制——才是真正做生物学的地方。扫描很快;理解却不快。
为什么一张零件清单还不够
GWAS 更深一层的教训——成百上千个微小的贡献、大多落在调控区、彼此还相互作用——指向了一个对任何单个基因来说都太大的问题。当人类基因组计划完成时,许多人本以为一张约两万个基因的零件清单就能大致解释我们。结果并没有,而原因令人谦卑:一个基因组不是一份你按顺序读下来的蓝图,它是*一份所有配料都彼此作用的食谱*。一个基因的蛋白质把第二个基因开启,第二个又压制第三个,第三个再反馈回来抑制第一个。把每一个零件都认全,对理解活细胞的帮助,并不比一架钢琴的零件清单对理解一首奏鸣曲的帮助更多。
这正是[[systems-biology|系统生物学]]的奠基洞见:要理解一个细胞,你不能只研究它的零件,还得研究*零件之间的相互作用*,而且常常得把它们一并研究。是新出现的各种组学数据——基因组、来自 RNA 测序的转录组、为每一种蛋白质编目的蛋白质组——才让这件事变得可想。系统生物学不再一次只看一个基因,而是把整份清单端上来,去问它是*如何接线连在一起*的。描述接线最自然的语言,就是网络:把每一个基因或蛋白质画成一个点(一个*节点*),在任意两个有相互作用的之间画一条线(一条*边*)。细胞的生物学,就变成了一张图。
两类网络:谁调控谁,谁接触谁
有两类网络最为重要。第一类是[[gene-regulatory-network|基因调控网络]],而它的每一块零件,你在前面几级里其实都已经握在手中。回想一下:转录因子是一种能结合 DNA、把基因开或关的蛋白质。现在把镜头拉远:这个转录因子本身也由某个基因编码,而那个基因又被*别的*转录因子开或关。从每个调控基因画一支箭,指向它所控制的每一个基因,整个基因组就显影成一张电路图——谁开启谁。这些箭有方向、也有正负之分(激活或抑制),所以调控网络与其说是一张静态的地图,不如说是一块*逻辑板*。
第二类是[[protein-interaction-network|蛋白质相互作用网络]],有时也叫*互作组*。蛋白质很少单打独斗;它们彼此抓握,组装成机器、接力传递信号。把每一对在物理上相互接触的蛋白质都标出来——每个作一个节点,每处接触作一条边——你就得到一张铺展开的网。那张网里紧密互连的团块,往往就是*功能模块*:一组协同搭建某台机器、或共同运行某条通路的蛋白质,就像你前面见过的信号级联那样。网络不只把蛋白质罗列出来;它还按照「它们一同干的活」把它们归了类。
GENE REGULATORY NETWORK PROTEIN INTERACTION NETWORK
(arrows = who controls whom) (lines = who physically touches)
TF-A --activates--> gene B P1 --- P2
| | | \ / |
represses activates | P3 |
| v | / \ |
+----------------> gene C P4 --- P5
directed, signed circuit undirected web; dense
-> behaves like logic clumps = functional modules涌现:当网络做出任何单个基因都做不到的事
画出这些网络的回报,在于它们能解释任何单个组件都不具备的行为——生物学家称之为涌现行为。来看一个微小而真实的回路模体:基因 A 造出一种蛋白质,去压制基因 A 自己的生产。这一条负反馈环,仅仅是一个节点绕回自身,就给了细胞一样单个基因给不了的东西——*稳定*,把它的蛋白质水平稳稳顶住噪声,恰如一台恒温器把房间维持在某个温度附近。把两个抑制因子接起来,让彼此互相关闭,这一对就成了一个有两个稳定状态的*双稳开关*,一种能翻转、又能保持翻转的细胞记忆。在环路上加一段延迟,你就得到一个会振荡的*时钟*——这正是昼夜节律的基础。记忆、节律、稳健——这些没有一样住在任何单个基因里。它们住在*连接的图样*之中。
- 测量零件:用基因组测序、RNA 测序和蛋白质组学,把在场的基因、转录本和蛋白质都编目,并看它们的水平在不同条件下如何变化。
- 推断接线:从这些测量出发,推算出哪些节点影响哪些节点——把调控网络和相互作用网络的边画出来。
- 建模并预测:把接线变成方程或一套计算机模拟,把它跑起来,预测当你扰动某个节点时这个系统应当如何表现。
- 检验并修正:回到实验台,把那个节点敲除或过量表达,把细胞真实的反应与预测相比照——然后在模型出错的地方把它修好。
请留意这个循环如何为整整这一级的旅程画上闭环。我们从测序一切开始,组装并比较基因组;如今我们把那一座座数据之山喂进网络与模型,模拟活的系统,再绕回湿实验去检验预测。这正是为什么分子生物学长出了一个沉甸甸的定量、计算的另一半:理解整个系统,既是移液器的活,也同样是生物信息学和数学的活。它也正在重塑医学——不再是一个基因、一种药,精准医学越来越多地读取一个人的整个基因组,去问他在这些网络中处于何处,从而让一种疗法能瞄准整个系统,而不只是某一个坏掉的零件。