基因、基因組與遺傳

基因：一個最終被證明是DNA的遺傳單位

本階前幾篇已經向你介紹了這套分子的角色：DNA是檔案，RNA是工作副本，蛋白質是機器，而中心法則把它們串在一起。現在我們退後一步，問一個不同的問題——正是這個問題給了整個領域存在的理由：生物是怎樣把自己的指令傳給後代的？答案建立在一個觀念之上：基因作為遺傳的單位。早在任何人見到DNA之前，育種者就注意到性狀是以一份份離散的「包裹」傳遞的，而不是取平滑的平均：一顆豌豆要麼圓、要麼皺，不會落在中間。每個包裹背後那個看不見的因子，在1909年被命名為「基因」，比人們弄清它的化學身份早了幾十年。

隨後分子生物學給了基因一個身軀。在經典圖景裡，一個基因是一段特定的DNA：它的序列拼寫出某一種產物（通常是一個蛋白質）的配方，再加上附近那些指示「何時、何處去讀它」的DNA訊號。於是基因同時是兩樣東西：一個用於記帳的遺傳單位，以及染色體上一段你能指出來的實體片段。當我們說β-珠蛋白（血液裡攜氧蛋白的一部分）是「11號染色體上的一個基因」時，指的正是這樣一段；其中僅一個字母的改變，就導致鐮狀細胞病。

基因組：從一道菜譜到整本食譜

如果說一個基因是一道菜譜，那麼基因組就是整本食譜：一個生物體中全部的DNA，包括每一個基因以及夾在基因之間的所有DNA。對人類而言，這大約是三十億個鹼基對，被複製進身體幾乎每一個細胞裡。想像一下它的佈局：在我們體內，基因組分佈於細胞核中的23對染色體上，外加粒線體內一個微小而獨立的基因組。基因組是那座母版檔案庫；而單個基因，是這片疆域上的一處地標。

這裡有第一個意外。人類基因組中只有一小片——大約百分之一到百分之二——直接編碼蛋白質。其餘都是非編碼DNA：決定基因何時被讀取的調控開關、永遠不會變成蛋白質的RNA基因、大段大段的重複序列，以及遠古病毒石化般的殘跡。幾十年來，其中很大一部分被斥為「垃圾DNA」。這是一個過早的標籤。我們如今知道，其中相當多的部分在做著真實的工作，尤其是在控制基因「何時、何處被打開」上——儘管確實也有一部分是真正惰性的填充物。誠實的立場是：「非編碼」不等於「無用」，它的意思只是「不會被翻譯成蛋白質」。

基因組這一概念重組了生物學：它邀請我們把一個生物體的指令當作一個完整、有限、可讀的整體對象來研究，而不是一個基因一個基因地看。正是這一轉變讓人類基因組計畫得以構想，並催生了基因組學：在人與人、物種與物種之間比較完整基因組，繪製調控的版圖，追蹤哪些變異與疾病相關。

基因型與表型：菜譜與菜

菜譜和它做出來的菜之間，有一個關鍵的區別，而生物學為它準備了兩個詞。你的基因型就是菜譜：你所攜帶的那一套特定的DNA序列。你的表型則是那道菜：你實際上長成什麼樣、做出什麼事，從眼睛顏色、身高，到血型、患病風險、乃至行為。分子生物學幾乎全部的戲劇，都發生在這兩者之間的空隙裡——一段被儲存的序列是如何變成一個可觀察到的性狀的。把基因型與表型分開，能避免許多糊塗的想法。

基因型原則上是固定而離散的：在你DNA上某個特定位置，你攜帶著從父母那裡繼承來的特定字母。表型則是當這些指令被讀出並運行時所浮現出來的東西，而它依賴的遠不止序列本身。同一種基因型在不同環境中可以產生不同的表型，就像同樣的種子在肥沃和貧瘠的土壤裡長成不同的植株。同卵雙胞胎起初擁有基本相同的基因型，最終卻有著不同的指紋、體重和病史，因為環境與純粹的運氣在那份共享的DNA之上塑造了表型。基因型設定了各種可能；而表型，是這些可能性、環境與運氣實際造出的結果。

基因如何「編碼」某樣東西——以及為什麼它不是一張藍圖

把基因叫作藍圖很誘人，但這個詞會誤導人，值得花點時間誠實地說清為什麼。藍圖是一張按比例繪製的圖：圖上的每一部分都對應著成品的某一部分。基因完全不是這樣。它是一串一維的字母，被讀出成一串RNA，再讀出成一條胺基酸鏈，最後摺疊成一個蛋白質。基因指定的是一段序列，而不是一個形狀，更不是這個生物體的一幅圖畫。更貼切的詞是菜譜：一套製作某物的指令，而你沒法盯著菜譜就「看見」那塊蛋糕。

gene (DNA)  -->  RNA copy  -->  protein chain  -->  folded protein  -->  some effect on a trait
  ATG...      transcription     translation         self-assembly        (one of MANY inputs)

NOT:  gene  ==  picture of the finished organism

基因指定的是一段線性序列；性狀則在其下游、隔著許多步驟和許多基因之外。

還有兩個事實徹底瓦解了藍圖這一比喻。第一，那句老口號「一個基因，一個蛋白質」已經過時。在複雜生物裡，一個基因通常被切成一段段編碼片段（外顯子），中間夾著非編碼片段（內含子）；通過可變剪接，細胞能以不同的組合把這些外顯子拼接起來，於是單個基因能指定好幾種不同的蛋白質。第二，大多數性狀根本不是一個基因的事。身高、血壓、常見疾病的風險，都是由成百上千個遺傳變異共同塑造的，每一個都把結果朝某個方向輕輕推一點，並與環境協同作用。這些是多基因性狀，對它們而言，「是哪個基因造成的？」這個問題根本沒有單一答案。

基因更多，並不意味著更複雜

下面這個觀念是生物學家花了最久才接受的，也最可能讓你吃驚。當人類基因組計畫完成時，許多人原以為人類會攜帶數十萬個基因，才配得上我們這般精巧。真實的數字卻令人謙卑：只有大約兩萬個蛋白質編碼基因，跟一條小小的線蟲差不多，比某些植物還少。當一個人，並不需要在零件清單上比一條蛔蟲多出太多條目。真正不同的，是這些零件如何被部署、組合、剪接，以及在不同時間和不同位置如何被調控。

如果你看的是基因組的大小而非基因的數目，這個謎會變得更加尖銳。一個細胞中DNA的總量，叫作它的C值，其變化幅度極大，而且根本不隨複雜程度變化：某些變形蟲和許多植物攜帶的基因組遠比我們的大，有時大上幾十倍。這個由來已久的謎，就是C值悖論。它的解答恰恰是本篇的主旨：基因組的大部分是非編碼的，編碼所佔的比例在物種之間相差巨大，而DNA總量是衡量一個生物有多複雜的很糟糕的代理指標。

那麼，複雜性若不在基因的數目裡，又在哪裡？很大程度上在於調控與組合。當每個基因都能在不同的地點和時間被開或關、被剪接成多種蛋白質、並被接入「基因彼此控制」的網路時，一套並不龐大的基因就能造出極其豐富的多樣性。這正是為什麼兩個擁有相同基因組的細胞（一個神經元和一個白血球）在外形和行為上毫不相像：差異來自各自「讀了什麼」，而非「存了什麼」。原來，複雜性是一個編排的問題，而不是一個零件數目的問題。