JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

基因、基因組與遺傳

基因究竟是什麼、它與整個基因組有何不同,以及為什麼基因更多並不意味著生物更複雜。

基因:一個最終被證明是DNA的遺傳單位

本階前幾篇已經向你介紹了這套分子的角色:DNA是檔案,RNA是工作副本,蛋白質是機器,而中心法則把它們串在一起。現在我們退後一步,問一個不同的問題——正是這個問題給了整個領域存在的理由:生物是怎樣把自己的指令傳給後代的?答案建立在一個觀念之上:基因作為遺傳的單位。早在任何人見到DNA之前,育種者就注意到性狀是以一份份離散的「包裹」傳遞的,而不是取平滑的平均:一顆豌豆要麼圓、要麼皺,不會落在中間。每個包裹背後那個看不見的因子,在1909年被命名為「基因」,比人們弄清它的化學身份早了幾十年。

隨後分子生物學給了基因一個身軀。在經典圖景裡,一個基因是一段特定的DNA:它的序列拼寫出某一種產物(通常是一個蛋白質)的配方,再加上附近那些指示「何時、何處去讀它」的DNA訊號。於是基因同時是兩樣東西:一個用於記帳的遺傳單位,以及染色體上一段你能指出來的實體片段。當我們說β-珠蛋白(血液裡攜氧蛋白的一部分)是「11號染色體上的一個基因」時,指的正是這樣一段;其中僅一個字母的改變,就導致鐮狀細胞病。

基因組:從一道菜譜到整本食譜

如果說一個基因是一道菜譜,那麼基因組就是整本食譜:一個生物體中全部的DNA,包括每一個基因以及夾在基因之間的所有DNA。對人類而言,這大約是三十億個鹼基對,被複製進身體幾乎每一個細胞裡。想像一下它的佈局:在我們體內,基因組分佈於細胞核中的23對染色體上,外加粒線體內一個微小而獨立的基因組。基因組是那座母版檔案庫;而單個基因,是這片疆域上的一處地標。

這裡有第一個意外。人類基因組中只有一小片——大約百分之一到百分之二——直接編碼蛋白質。其餘都是非編碼DNA:決定基因何時被讀取的調控開關、永遠不會變成蛋白質的RNA基因、大段大段的重複序列,以及遠古病毒石化般的殘跡。幾十年來,其中很大一部分被斥為「垃圾DNA」。這是一個過早的標籤。我們如今知道,其中相當多的部分在做著真實的工作,尤其是在控制基因「何時、何處被打開」上——儘管確實也有一部分是真正惰性的填充物。誠實的立場是:「非編碼」不等於「無用」,它的意思只是「不會被翻譯成蛋白質」。

基因組這一概念重組了生物學:它邀請我們把一個生物體的指令當作一個完整、有限、可讀的整體對象來研究,而不是一個基因一個基因地看。正是這一轉變讓人類基因組計畫得以構想,並催生了基因組學:在人與人、物種與物種之間比較完整基因組,繪製調控的版圖,追蹤哪些變異與疾病相關。

基因型與表型:菜譜與菜

菜譜和它做出來的菜之間,有一個關鍵的區別,而生物學為它準備了兩個詞。你的基因型就是菜譜:你所攜帶的那一套特定的DNA序列。你的表型則是那道菜:你實際上長成什麼樣、做出什麼事,從眼睛顏色、身高,到血型、患病風險、乃至行為。分子生物學幾乎全部的戲劇,都發生在這兩者之間的空隙裡——一段被儲存的序列是如何變成一個可觀察到的性狀的。把基因型與表型分開,能避免許多糊塗的想法。

基因型原則上是固定而離散的:在你DNA上某個特定位置,你攜帶著從父母那裡繼承來的特定字母。表型則是當這些指令被讀出並運行時所浮現出來的東西,而它依賴的遠不止序列本身。同一種基因型在不同環境中可以產生不同的表型,就像同樣的種子在肥沃和貧瘠的土壤裡長成不同的植株。同卵雙胞胎起初擁有基本相同的基因型,最終卻有著不同的指紋、體重和病史,因為環境與純粹的運氣在那份共享的DNA之上塑造了表型。基因型設定了各種可能;而表型,是這些可能性、環境與運氣實際造出的結果。

基因如何「編碼」某樣東西——以及為什麼它不是一張藍圖

把基因叫作藍圖很誘人,但這個詞會誤導人,值得花點時間誠實地說清為什麼。藍圖是一張按比例繪製的圖:圖上的每一部分都對應著成品的某一部分。基因完全不是這樣。它是一串一維的字母,被讀出成一串RNA,再讀出成一條胺基酸鏈,最後摺疊成一個蛋白質。基因指定的是一段序列,而不是一個形狀,更不是這個生物體的一幅圖畫。更貼切的詞是菜譜:一套製作某物的指令,而你沒法盯著菜譜就「看見」那塊蛋糕。

gene (DNA)  -->  RNA copy  -->  protein chain  -->  folded protein  -->  some effect on a trait
  ATG...      transcription     translation         self-assembly        (one of MANY inputs)

NOT:  gene  ==  picture of the finished organism
基因指定的是一段線性序列;性狀則在其下游、隔著許多步驟和許多基因之外。

還有兩個事實徹底瓦解了藍圖這一比喻。第一,那句老口號「一個基因,一個蛋白質」已經過時。在複雜生物裡,一個基因通常被切成一段段編碼片段(外顯子),中間夾著非編碼片段(內含子);通過可變剪接,細胞能以不同的組合把這些外顯子拼接起來,於是單個基因能指定好幾種不同的蛋白質。第二,大多數性狀根本不是一個基因的事。身高、血壓、常見疾病的風險,都是由成百上千個遺傳變異共同塑造的,每一個都把結果朝某個方向輕輕推一點,並與環境協同作用。這些是多基因性狀,對它們而言,「是哪個基因造成的?」這個問題根本沒有單一答案。

基因更多,並不意味著更複雜

下面這個觀念是生物學家花了最久才接受的,也最可能讓你吃驚。當人類基因組計畫完成時,許多人原以為人類會攜帶數十萬個基因,才配得上我們這般精巧。真實的數字卻令人謙卑:只有大約兩萬個蛋白質編碼基因,跟一條小小的線蟲差不多,比某些植物還少。當一個人,並不需要在零件清單上比一條蛔蟲多出太多條目。真正不同的,是這些零件如何被部署、組合、剪接,以及在不同時間和不同位置如何被調控。

如果你看的是基因組的大小而非基因的數目,這個謎會變得更加尖銳。一個細胞中DNA的總量,叫作它的C值,其變化幅度極大,而且根本不隨複雜程度變化:某些變形蟲和許多植物攜帶的基因組遠比我們的大,有時大上幾十倍。這個由來已久的謎,就是C值悖論。它的解答恰恰是本篇的主旨:基因組的大部分是非編碼的,編碼所佔的比例在物種之間相差巨大,而DNA總量是衡量一個生物有多複雜的很糟糕的代理指標。

那麼,複雜性若不在基因的數目裡,又在哪裡?很大程度上在於調控與組合。當每個基因都能在不同的地點和時間被開或關、被剪接成多種蛋白質、並被接入「基因彼此控制」的網路時,一套並不龐大的基因就能造出極其豐富的多樣性。這正是為什麼兩個擁有相同基因組的細胞(一個神經元和一個白血球)在外形和行為上毫不相像:差異來自各自「讀了什麼」,而非「存了什麼」。原來,複雜性是一個編排的問題,而不是一個零件數目的問題。