遺傳密碼 — JOVANA Education

逼出一套密碼的那個數目落差

來到這一級時，你手裡已經握著故事的兩端。從轉錄那一級你知道，一個基因如何變成一條 RNA 鏈，只用四個字母寫成——A、C、G、U。從蛋白質那一級你知道，一條造好的蛋白質是一串胺基酸，取自二十種的調色盤。界定這一級的問題，正是連接兩者的那座橋：一份用四字母表寫就的訊息，怎麼給二十種不同的東西命名？答案就是[[molbio-genetic-code|遺傳密碼]]——細胞從 RNA 到蛋白質的那張查找表。

把可能性數一數，這個設計幾乎自己就浮現出來。若一個 RNA 字母只命名一種胺基酸，你最多拼出 4 種——遠遠不夠。兩兩成對地讀，給出 4 × 4 = 16 種，仍不足二十。可一次讀三個，便給出 4 × 4 × 4 = 64 種組合，綽綽有餘。於是密碼以三個一組來讀訊息。每個三字母的組合就是一個[[molbio-codon|密碼子]]，而一個密碼子命名一種胺基酸。AUG、GCA、UUU——每個三聯體都是蛋白質語言裡的一個單詞。

六十四個密碼子對應二十種胺基酸，餘量很慷慨，而密碼以兩種方式花掉它。六十四個中有三個被留作終止訊號——相當於句號，宣告「蛋白質到此結束」；另有一個密碼子 AUG 身兼二職，既是起始訊號，又是甲硫胺酸這種胺基酸的密碼子。其餘六十一個全都命名胺基酸。二十種胺基酸分攤六十一個密碼子，於是大多數胺基酸各自不止一個密碼子。這份餘量並非浪費；你將看到，它正是密碼靜悄悄的安全設計之一。

怎麼查這本字典

按慣例，這本字典是為信使 RNA 寫的，按 5' 到 3' 方向讀取——也正是核糖體將要行進的方向。細胞用的頭一個密碼子幾乎總是[[molbio-start-codon|AUG]]，它定下讀取從何處開始，並貢獻蛋白質的第一個胺基酸（甲硫胺酸）。從那裡起，細胞每次跨過三個字母，一個接一個地查密碼子，直到撞上三個[[molbio-stop-codon|終止密碼子]]之一——UAA、UAG 或 UGA——它們一概不命名任何胺基酸。鏈就在那裡完工並被釋放。

mRNA   5'- A U G   G C A   A A A   U U U   U A A -3'
           Met   Ala   Lys   Phe   STOP
            |     |     |     |      |
          start                    stop (no amino acid)

  reading frame = where you start cutting into triplets
  same letters, frame shifted by 1:
   ...A U G G   C A A   A A U   U U U   A A... -> different protein

一段短 mRNA 按 5' 到 3' 作為密碼子讀取：AUG 起始，終止密碼子結束；而改變三聯體從何處切起，就讀出一份完全不同的訊息。

值得停下來想想密碼是什麼、不是什麼。它是一張純粹的查找表——UUU 永遠意味著苯丙胺酸，在你的肝裡、在一根香蕉裡、在一種土壤細菌裡都一樣。它在單詞之間不帶標點：沒有逗號標出密碼子的邊界，於是唯一讓三聯體保持對齊的，就是讀取最初從哪裡開始。而且它只朝一個固定方向讀。這一級裡其餘的一切——你接下來要認識的接頭分子 tRNA，以及托住訊息的核糖體——存在的意義，就是把這張表一個密碼子一個密碼子地物理執行出來。

多出來的單詞：簡併性與擺動

由於六十一個密碼子分擔著給二十種胺基酸命名的活，幾乎每種胺基酸都由若干個不同的密碼子拼寫。白胺酸有六個密碼子，丙胺酸有四個，只有甲硫胺酸和色胺酸各自恰好一個。這種「多密碼子對應一種胺基酸」的性質叫做[[code-degeneracy|簡併性]]（或冗餘）。要緊的是，簡併並不讓密碼變得含糊：任何一個密碼子仍然恰好只表示一種胺基酸。它是單向的發散——多種拼寫，一個含義——絕不是一個詞有兩個意思。

細看會發現，這份冗餘並不隨機——它集中在第三個字母上。同一種胺基酸的密碼子，通常頭兩位一致，只在第三位不同：GCU、GCC、GCA、GCG 全都表示丙胺酸。法蘭西斯·克里克用[[wobble-hypothesis|擺動假說]]解釋了原因。tRNA 接頭通過把自己三字母的反密碼子與密碼子配對來讀取密碼子，但第三位上的配對很鬆——它會「擺動」——於是單個 tRNA 就能識別好幾個僅在該位不同的密碼子。這正是為何細胞讀完全部六十一個有義密碼子，所需的 tRNA 遠少於六十一種。

這本字典是怎麼被破譯的

這一切在 1960 年並非顯而易見。研究者確信存在一套密碼，卻全然不知哪個三聯體對應什麼。突破來自馬歇爾·尼倫伯格與海因里希·馬特伊，他們給一份無細胞的造蛋白質混合物餵入一種全由單一字母構成的人工 RNA——poly-U，也就是 ……UUUUU……這份混合物造出了一條全由苯丙胺酸構成的蛋白質。UUU 意味著苯丙胺酸：字典裡的第一個單詞，靠實驗讀出，而非靠猜。

另外兩項進展補齊了其餘部分。尼倫伯格與菲利普·萊德設計出一個巧招：讓一段段短而確定的三字母 RNA 各自只鉤住與之匹配的那個 tRNA，使他們得以一個一個地指派密碼子。而哈爾·戈賓德·科拉納學會了用化學方法合成具有精確重複模式的 RNA——UCUCUC……、AAGAAGAAG……——其蛋白質產物釘牢了那些含義取決於閱讀框的密碼子。兩路並進，到 1966 年，六十四個密碼子全都有了含義。尼倫伯格與科拉納因此共享了 1968 年諾貝爾獎。

閱讀框，以及為何區區一個鹼基也舉足輕重

既然密碼不帶逗號，那麼你從哪裡開始把訊息切成三聯體，就是一切。那個起始偏移量就是[[molbio-reading-frame|閱讀框]]。同一串字母可以按三種不同的框來讀，取決於你是從第一、第二還是第三個鹼基起讀，而每一種框都產出一套截然不同的密碼子序列。想想英文串 THEFATCATATEABIGRAT：從頭分組讀作 THE FAT CAT，可往後挪一個字母再起，就成了亂碼——HEF ATC ATA。字母從未改變，改變的只是分組。

這正是為何插入或刪除一個鹼基，要比替換一個嚴重得多。在基因中段添加或去掉單單一個字母，會把下游每一個密碼子整體挪移一位——即[[molbio-reading-frame|移碼]]——於是從那一點起，核糖體讀到的是一串錯位、互不相關的密碼子，並幾乎總會絆到一個提前出現的終止密碼子，把蛋白質截斷成一堆廢話。回接到突變那一級：移碼通常遠比點替換更具破壞性，恰恰因為它毀掉的不是一個單詞，而是整句話的其餘全部。（刪除或添加三個鹼基則溫和些——它去掉或插入整整一個密碼子，而讓閱讀框保持完好。）