遗传学研究基因;基因组学研究整本书
在 20 世纪的大部分时间里,遗传学都是一次研究一个基因。你选定一个性状,在家系中追踪它,然后慢慢把单个基因定位到染色体上的某个位置。这种细致的、逐个基因的方法正是经典遗传学的核心。而基因组学则是当你彻底放大、一次性研究某个生物体内*全部*DNA时所发生的事——每一个基因,再加上基因之间所有的片段。
基因组就是这座完整的 DNA 图书馆——一个生物体一套染色体上所携带的全部字母序列。对人类来说,这大约是 32 亿个碱基对。基因组学能提出一些你逐个基因研究时根本无法提出的问题:基因总共有多少个?它们在不同物种之间如何比较?两个人之间哪些字母不同,这些差异又是否重要?
基因组里到底有什么
基因组学揭示了一个令人惊讶的事实:基因只占基因组的一小部分。在那 32 亿个字母中,只有大约 1–2% 是编码蛋白质的编码 DNA。其余则是非编码 DNA——调控开关、RNA 基因、重复序列、间隔序列,以及一些我们至今仍在弄清其功能的序列。读出整个基因组迫使你认真对待所有这些内容,而不仅仅是那些著名的编码片段。
Human genome at a glance ------------------------------------- Total length ~3,200,000,000 bp Protein-coding genes ~20,000 Coding DNA ~1-2% of the genome Non-coding DNA ~98% Chromosomes 22 autosomes + X + Y ------------------------------------- Reading 1 letter per second, nonstop, would take you about 100 years.
从遗传学到基因组学的飞跃,只有当我们能够又快又便宜地读出 DNA 字母时才成为可能。本专题接下来的内容讲的就是基因组测序的故事:我们如何把一个实体分子转化成一串可以存储、检索和比较的 A、C、G、T。首次尝试读出整个人类基因组的里程碑——人类基因组计划——正是下一篇指南的起点。