從母本檔案到一份工作副本
你已經認識了中心法則及其日常往來 DNA -> RNA -> 蛋白質,也在複製那一級裡看著細胞在分裂前抄完了自己全部的 DNA。這一級,把放大鏡對準最前面的那個箭頭 DNA -> RNA。把單個基因抄成 RNA 的這個動作,就叫做[[transcription-overview|轉錄]],它也正是基因表達的起點——一段安靜的 DNA 終於被大聲讀出的那一刻。
請記住這樣一幅畫面。把 DNA 想成一本珍貴到從不離開廚房的主菜譜。當細胞真要照著某道菜下廚時,它不會把整本厚書搬到操作檯,而是把那一頁抄到一張紙條上,照著紙條做。轉錄就是細胞在做這張紙條。原本的基因仍鎖在雙螺旋裡,安然無恙;被帶到工作檯去的,是一份嶄新的、單鏈的 RNA 副本。由於母本永不被消耗,同一個基因可以按需被轉錄上千次。
請留意它與你剛剛離開的複製之間的對比。複製是把*整個*基因組抄一遍,在細胞分裂前抄那麼一次,而新造的 DNA 是永久的——會被每一個後代繼承。轉錄則是把*單個基因*一遍又一遍地抄,而它造出的 RNA 注定是臨時的,用完即棄。一個是細胞在為自己整座圖書館存檔;另一個是細胞因為此刻就需要某一頁,而去影印那一頁。
動筆的那台機器
動筆抄寫的那隻「手」,是一種叫做 [[molbio-rna-polymerase|RNA 聚合酶]]的酶。它是一台大型分子機器,形狀有點像蟹鉗,能夾住 DNA、在一小段範圍內把兩條鏈撬開、讀取其中一條,並一次添加一個原料、縫合出一條匹配的 RNA 鏈。沒有它,轉錄寸步難行。RNA 的原料是核糖核苷酸——DNA 字母的 RNA 表親——它們以富能的三磷酸形式(ATP、GTP、CTP、UTP)到來,扣上去並在每形成一個連接時釋放能量。
下面就是那個讓大多數初學者吃驚、值得停下來想想的、與複製唯一的不同。回想複製那一級:DNA 聚合酶無法從零開始造鏈——它只能*延伸*一個已有的 3' 端,正因如此,細胞得先為它鋪下一小段 RNA 引子。RNA 聚合酶卻沒有這樣的限制。它能從零起始一條全新的鏈,自己把頭兩個核苷酸連起來。所以轉錄根本不需要引子。這正是細胞為何保留兩種不同聚合酶、而不是一種的原因之一:複製機器為保真與遺傳而生,依賴引子;轉錄機器則為「凡基因說『從這裡開始』便能在那裡起始」、並寫出一份用完即棄的副本而生。
讀的是哪條鏈,以及為何 RNA 看起來像另一條
DNA 有兩條纏繞在一起的鏈,但對任意給定的基因,RNA 聚合酶只讀其中一條。它真正讀取的那條叫模板鏈;聚合酶造出與之互補的 RNA,按 A 對 T、U 對 A、G 對 C、C 對 G 配對——正是你已經熟悉的那套鹼基配對邏輯,只有一處替換:RNA 在 DNA 本會用胸腺嘧啶(T)的地方,一律改用尿嘧啶(U)。U 像 T 一樣與 A 配對,所以規則幾乎沒變;RNA 只是把那個字母拼寫得不同罷了。
現在來看那個讓人恍然、也常把人絆倒的轉折。因為鹼基配對是對稱的,造出來的 RNA 最終匹配的,不是它被讀取的那條鏈,而是*另一條*——[[template-versus-coding-strand|編碼鏈]](也叫有義鏈),逐字相同,只是用 U 代替 T。所以若編碼鏈讀作 5'-ATGCCT-3',模板鏈就是它的互補鏈 3'-TACGGA-5',而聚合酶造出的 RNA 是 5'-AUGCCU-3'——除了 T 變成 U,與編碼鏈一模一樣。這正是為何你在資料庫裡查一個基因的「序列」時,看到的是編碼鏈:它讀起來像那條 RNA,儘管聚合酶從未碰過它。它讀的是鏡像。
coding strand 5'-A T G C C T A G-3' (matches the RNA; T->U)
template strand 3'-T A C G G A T C-5' (the strand actually read)
| base-pairing
RNA made 5'-A U G C C U A G-3' (built 5'->3', read 3'->5')有一處需要誠實說明:哪條鏈充當模板,並非整條染色體一成不變,而是一個基因一個基因地決定。相鄰的基因可以朝相反方向,於是對某個基因來說某條鏈是模板,而沿著*同一條物理鏈*再往前一點,它可能就是鄰近基因的編碼鏈。「模板」和「編碼」這兩個標籤描述的是某一個基因之內的角色,而不是一條鏈永久的性質。
它朝哪個方向跑:方向性
讀和寫都有方向,而轉錄嚴格遵守一個方向。回想核酸那一級:每條鏈都有兩個化學上不同的末端,按糖上碳原子的位置命名為 5' 端和 3' 端,而雙螺旋的兩條鏈是反向平行的——走向相反,就像兩條方向相反的車道。RNA 聚合酶只能把新核苷酸添加到正在增長的 RNA 的游離 3' 端,所以 RNA 總是沿 5' 到 3' 的方向造出。
因為模板與正在合成的 RNA 反向平行,聚合酶就必須沿*相反*方向掃描模板:它按 3' 到 5' 讀取模板。想像一位打字員,從一頁的最底行往上讀、卻從一張新紙的頂部往下打——兩者方向相反,卻始終完全合拍。最新的核苷酸總在 RNA 的最前緣,也就是 3' 端不斷增長之處。一個常見的口誤是說「聚合酶沿 5' 到 3' 移動」。要說準確:是 *RNA* 沿 5' 到 3' 增長;而*酶*沿模板朝模板的 5' 端方向行進,也就是它按 3' 到 5' 讀取。
這個固定的方向並非僅僅是記帳。它界定了一個基因從哪裡「開始」(其 5' 端,即聚合酶最先落腳的那一側)、又到哪裡「結束」,它定下了對該基因而言哪條鏈能作模板,也正是我們按慣例把序列寫成 5' 到 3' 的原因。同樣這套化學——新核苷酸只能在 3' 端附著——支配著複製,往後也支配著轉譯,使分子資訊的整個流動呈現出一致的紋理。
三幕戲,以及為何這是細胞的主要開關
整件事分三幕展開,本級接下來的幾篇指南會一幕幕地把它們打開。眼下,先把這個故事的輪廓記住——對任何生物的任何基因,都是同一條弧線。
- 起始:RNA 聚合酶通過識別一段叫做啟動子的「路牌」序列找到基因的起點,在那裡結合,並熔開一小段 DNA 氣泡以暴露模板——隨後落實頭幾個 RNA 字母。
- 延伸:此時已下定決心的聚合酶沿基因穩步前行,按 3' 到 5' 讀取模板,每秒往 RNA 的 3' 端添加幾十個核糖核苷酸,與此同時身後的 DNA 重新合攏,造好的 RNA 則脫離出來。
- 終止:遇到停止信號時,聚合酶釋放出造好的 RNA、放開 DNA、就此收手——讓每個基因產出一條長度恰當、彼此分立的 RNA,而不是讀穿進相鄰基因的長鏈。
三幕之中,起始無疑是最具決定性的,這也把我們引向:這一級為何被放在階梯的此處。你體內幾乎每個細胞都帶著同一份 DNA,可神經元與皮膚細胞卻天差地別——因為它們轉錄的是*不同*的基因。細胞主要靠控制轉錄究竟開不開始來掌控一個基因,這使起始成為基因表達的主要控制點。我們之後會遇到的激活蛋白、阻遏蛋白和其他調控因子,大都靠加速或阻斷這第一步起作用。決定抄什麼,在很大程度上,就是決定要做哪種細胞。