基因、基因組，以及它們究竟裝著什麼

從四字母文本到一段有意義的文字

在上一篇裡，你認識了雙螺旋本身——兩條核苷酸鏈彼此纏繞，從頭到尾都是A 配 T、G 配 C。那給了你*載體*：一條長而穩定的線，用四個字母把東西拼寫出來。但一串字母還不是一條信息。隨手翻開一本書的某一頁，在你找到一句話從哪裡結束、下一句從哪裡開始之前，那些字母毫無意義。本篇的任務，就是搞清楚細胞如何把它那條無盡的字母串切成有意義的片段——以及這些片段是做什麼用的。

這裡出現了貫穿整級的核心詞：基因是一段指定某一產物的 DNA。把它想象成沿螺旋延伸的一段有意義的文字——它有開頭、有一串字母、有結尾，而這串字母承載著細胞能造出的某樣東西的配方。關鍵在於，基因是由它所做的事來定義的，而不是由它坐落在哪裡或長什麼樣來定義的。它不是鏈上一顆特別上色的珠子；它是細胞懂得如何讀取出來的一段區域，就像食譜集裡的一道菜譜，不過是恰好拼出某一道菜的普通墨水。

基因組：整本書，藏在每個細胞裡

如果說基因是一段文字，那麼基因組就是整本書——你全部的 DNA，包括每一個基因和它們之間的一切。人類基因組約有三十億個鹼基對，而把這所有字母從頭到尾首次讀通，大約是在 2003 年。把單個細胞裡的 DNA 拉直，長度大約有兩米；整級導語裡那本「兩米長的說明書」，說的就是這條線，而後面有一篇專門講述把它摺疊進一個需要顯微鏡才看得見的細胞核裡的那種工程藝術。

關於這本書，有兩個事實值得細細體會。其一，你體內幾乎每個細胞都帶著*同一份*完整基因組——一個肌細胞和一個神經細胞持有完全相同的副本，區別只在於各自選擇去讀哪些段落。（同一本書如何生出上千種細胞類型，正是後面一級講基因調控時的核心。）其二，在真核生物裡，基因組並非一整條巨線，而是分成幾個獨立的片段，即染色體，每一條都是一個與蛋白質打包在一起的單一長 DNA 分子。這種打包你早先已認識，就是染色體結構；給這些染色體計數並配對，就是核型所做的事，人類帶有 46 條染色體，組成 23 對相互匹配的染色體。

這本書裡到底有多少段落？遠比人們曾經猜測的要少。人類基因組只含有約兩萬個編碼蛋白質的基因——與一條小小的線蟲大致相當，甚至比某些植物還少。在基因組被讀通之前，許多科學家押注於十萬個甚至更多，他們的理由是：像人這麼精巧的生物，必定需要一份龐大的零件清單。他們錯了，而這個錯誤正是接下來一個深刻教訓的第一條線索：複雜性並不存在於基因的純粹數量之中。

編碼與非編碼：書的大部分並不是基因

接下來是幾乎讓所有人都吃驚的部分。如果編碼蛋白質的基因就是故事的全部，它們本該填滿整個基因組。可它們沒有——差得遠。真正拼寫出蛋白質的那些 DNA 片段，僅佔人類基因組的約 1% 到 2%。其餘約 98% 都是非編碼 DNA：不會被讀出成蛋白質的 DNA。所以這本食譜集裡，大部分*並不是*菜譜。把這一點想透，會徹底改變你對基因組的想象。

人們很容易把所有這些非編碼 DNA 斥為無用的填充物——多年來它一直被戲稱為「垃圾 DNA」。這裡要小心：這個標籤一部分公道，一部分卻極具誤導性。某些非編碼 DNA 確實沒什麼我們能檢測到的作為，包括古老病毒殘破的遺跡和長長的重複片段。但其中相當大一部分在做著至關重要的工作。有些被讀成有功能的 RNA 分子；更多的則是調控性的——決定哪些基因在哪種細胞裡、在什麼時候開啟的開關與調光旋鈕。誠實的總結是：非編碼並不等於無功能，而「垃圾 DNA」這個說法，誇大了我們真正證明為無用的那一部分。

  the human genome, by what the DNA does (very roughly)

  protein-coding genes      ##                          ~1-2%
  regulatory / functional   #############                some
  repeats, viral remnants   #####################        much
  still poorly understood   ###############              lots

  most of the book is NOT recipes -- but "noncoding" =/= "useless"

一個粗略的比例感：蛋白質菜譜只是薄薄一條；其餘的從至關重要的開關，到名副其實的遺留雜物，應有盡有——還有相當一部分我們至今無法有把握地歸類。

C 值悖論：更大並不更高級

現在輪到那些線索所指向的教訓了。你或許會以為：生物越複雜，基因組就越大——越精巧，字母就越多。可現實斷然拒絕配合。一顆樸實的洋蔥，基因組大約是你的五倍。某些蠑螈和肺魚攜帶的 DNA，是人類的幾十倍。與此同時，許多更簡單的生物靠一個微小的基因組就活得好好的。生物學家發現，基因組大小壓根就不隨一個生物表面上的複雜程度而變化——這是一個由來已久的謎題，被戲稱為 C 值悖論。

為什麼？因為基因組的大小大多體現在那批佔多數的非編碼 DNA 上，而非基因數量上——一顆洋蔥並不比你精巧五倍，它只是囤積了多得多的重複和非編碼 DNA。一旦想通，這個真正的教訓會讓人豁然開朗：一個生物的精巧，並不寫在它擁有*多少* DNA 上，甚至也不寫在它有*多少個*基因上。它體現在這些基因如何彼此連線、如何被調控——每個基因在什麼時候被讀取、在哪種細胞裡、以什麼樣的組合被讀取。一份不大的零件清單，若被巧妙地使用，勝過一份龐大卻平平無奇地使用的清單。

光儲存還不夠：密碼必須被讀取

退一步，看看我們已經擁有的，以及仍然缺少的。我們擁有一套精妙的儲存介質——一條穩定的雙螺旋，被整齊地切成染色體，把基因安置在一片調控性與非編碼 DNA 的海洋之中。但一個被鎖在細胞裡的基因組，靠它自己什麼也做不了，正如一本合著擱在書架上的食譜做不出一頓飯。信息是真實的，但沒有行動的信息只是惰性的。一個基因只有在被*讀取*、並被轉化成可用的產物時，才真正有意義。

這種讀取有一個名字，也有一個方向，它為後面各級鋪好了一切。細胞並不直接拿它那份珍貴的 DNA 檔案去開動造蛋白質的機器；它先把相關的基因抄錄成一條短小、用完即棄的 RNA 工作便條——也就是信使 RNA——再把這份副本送出去構建成產物。那條宏大的單向流動，從 DNA 到 RNA 再到蛋白質，被稱為分子生物學的中心法則。它的第一步，把一個基因抄錄成 RNA，就是轉錄——而這恰恰是這道階梯下一級的起點。