JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

基因文庫與探針

在研究一個基因之前,你得先在數十億個字母的基因組裡把它找出來。來認識兩種基因文庫——把整個基因組切成片段的文庫,以及只把表達出來的基因複製下來的 cDNA 文庫——還有那枚靠鹼基配對、從數百萬個選殖株裡把某一個釣出來的帶標記探針。

針,以及一個你看不見的草垛

在這一篇之前的幾篇裡,你已經攢起了一套強大的工具箱。[[restriction-endonuclease|限制酶]]在確定的序列處切開 DNA,留下你可以重新接合的末端;[[cloning-vector|選殖載體]]把一段外源片段帶進細菌裡;[[bacterial-transformation|轉化]]把這個載體送進去,再由一道篩選告訴你哪些菌落接收了它。把這些拼在一起,你就能把某一選定的 DNA 片段複製成無窮無盡、彼此相同的拷貝——也就是把它選殖出來。但這一切都假定你*已經*擁有你想要的那段、它正躺在試管裡。這一篇要回答更難、更靠前的那個問題:當你關心的基因埋在三十億個鹼基對的人類 DNA 裡某處時,你究竟一開始是怎麼把它弄到手的?

先體會一下這賠率有多殘酷,會很有幫助。一個人類基因或許有一千個字母長,卻迷失在一個比它大三百萬倍的基因組裡。你看不見一個基因;你也沒法用鑷子把它挑出來。而且——這是關鍵的歷史要點——在這些技術被發明出來的那個年代,也就是 1970、1980 年代的大部分時間裡,*沒有人讀過基因組*。沒有哪張地圖會告訴你這個基因在 7 號染色體的某某位置上。整個基因組當時還沒被測序,要等到 [[molbio-human-genome-project|人類基因組計畫]]在 2003 年前後完成才行。所以這道難題比大海撈針還要尖銳:它是要在一個誰都沒編過目錄的草垛裡,找出某一根特定的針。

基因組文庫:把整個基因組切成片段

先從更字面意義上的那種收藏說起,也就是[[genomic-library|基因組文庫]]。取一個生物的整個基因組,把它切開——通常用限制酶,而且往往只是部分切割,好讓切口落在零散、彼此重疊的位點上,而不是一下子把每個位點都剁斷。你最後會得到數百萬個片段,它們合在一起,從頭到尾覆蓋整個基因組,包括基因之間的部分,以及基因內部那些非編碼的片段。接著把每個片段連接進一個載體裡,再把整鍋混合物轉化進細菌。每個細菌接收一個片段;每個細菌長成一個菌落,裡面全是攜帶著那一個片段的相同細胞。這全套菌落——數以百萬計——就是文庫。基因組這本書的每一頁都在裡頭某處,已被複製、隨時可讀,哪怕你壓根不知道哪個菌落裝著哪一頁。

你究竟需要多少個選殖株?要多到憑純粹的機率,基因組的每一部分都至少被代表一次——再為保險起見多重複幾次,因為切割是部分的、隨機的。基因組越大、每個載體能裝的片段越小,需要的選殖株就越多。這正是分子生物學家後來看重大容量載體的原因:一個能攜帶更大插入片段的載體,意味著覆蓋基因組所需的片段更少,於是文庫也更易於打理。這套算術毫不留情,卻很簡單——覆蓋度無非就是基因組大小除以插入片段大小,再乘上一個安全係數。

第二種文庫更巧妙,它依託的是你在這條階梯最開頭就遇到過的一個想法。基因組文庫忠實卻不加分辨——它把每個基因都收進來,不管它有沒有被用過,還連帶收進了基因之間所有非編碼的「荒漠」。很多時候你並不想要這些。很多時候你只想要某個特定細胞*實際正在表達*的那些基因,而且想要它們被剝掉那些讓真核基因顯得雜亂的內含子。訣竅是:根本不從 DNA 出發,而從信使 RNA 出發。在任何一個給定的細胞裡,mRNA 分子的總體,正是一張快照,精確記錄著哪些基因被打開了、又各自有多豐富。

cDNA 文庫:只收那些被打開的基因

但你沒法直接選殖 RNA——載體和細菌打交道的對象是 DNA。於是你用一種叫[[molbio-reverse-transcriptase|反轉錄酶]]的酶把 RNA 反過來拷貝成 DNA,這種酶借自反轉錄病毒,它讀取一條 RNA 鏈,再沿著它鋪出一條互補的 DNA 鏈。你得到的 DNA 叫作互補 DNA,即 cDNA,而把一批 cDNA 選殖進載體所成的收藏,就是 [[cdna-library|cDNA 文庫]]。請在剛發生的這件事上停一下,因為它悄悄戳破了一個常見的誤解。[[molbio-central-dogma|中心法則]]常被誤記成一條單行道法則——DNA -> RNA -> 蛋白質,絕不倒流。它從來不是這個意思。中心法則講的是*序列資訊流入蛋白質*;它並不禁止資訊從 RNA 再回到 DNA。反轉錄酶做的恰恰就是這件事,無論在自然界還是在你的試管裡,而 cDNA 文庫正建立在它之上。

GENOMIC clone  (a slice of the chromosome, introns and all):
  5'- promoter ... EXON1 -[ intron ]- EXON2 -[ intron ]- EXON3 ... -3'

               cell splices out introns, makes mature mRNA
                                  |
                                  v
mature mRNA :   5'-cap- EXON1-EXON2-EXON3 -AAAAA(polyA tail)-3'

               reverse transcriptase copies mRNA -> DNA
                                  |
                                  v
cDNA clone    (intron-free, just the coding message):
  5'- EXON1-EXON2-EXON3 -3'
基因組選殖株保留內含子和調控 DNA;cDNA 選殖株則是剪接後的信使被反轉錄回 DNA——內含子早已被去掉。

因此這兩種文庫之間的差別絕非裝點門面——它是*各自保存何種資訊*上的差別,而你想要哪一種,完全取決於你的問題。基因組選殖株保留著基因在染色體裡的樣子:內含子、啟動子、調控序列,應有盡有。如果你想研究一個基因是怎樣被打開的,這層上下文就是金子。cDNA 選殖株則只保留成熟、剪接好的信使——外顯子被縫合在一起,隨時可以編碼蛋白。如果你的目標是在細菌裡造出一種人類蛋白,那 cDNA 不可或缺,因為細菌沒法把一個真核基因的內含子剪掉;要是把未經處理的基因組版本交給它們,它們會逕直把內含子也翻譯進去,譯出一堆無意義的東西。

探針:靠鹼基配對找出那一個選殖株

現在你有了一個文庫——一隻培養皿,裡頭滿是數百萬個菌落,其中某一個裝著你的基因。你怎麼把它找出來?你利用 DNA 那個最可靠的性質,也是這整條階梯一再回到的那個性質:一條單鏈會去尋找並結合它的互補鏈。A 與 T 隔著空間伸手配對,G 與 C 亦然;一有機會,兩條序列匹配的鏈就會拉合成一個雙螺旋、並穩穩待在那裡。這種靠互補來識別的本領,是[[nucleic-acid-hybridization|雜交]]的根基,也是整個分子生物學中專一性最為精妙的搜索工具。你根本不需要讀出任何序列就能找到你的基因;你只需要一段與它匹配的 DNA。

那段匹配的片段就是[[molecular-probe|探針]]:一小段單鏈 DNA(或 RNA),其序列與你的目標基因的某一部分互補,並帶著一個標記,好讓你看出它最終落在哪裡。經典做法裡,這個標記是一個放射性原子,會讓一張照相底片感光成霧;如今則更常是一種螢光染料,或一種能產生顏色的酶。探針的任務簡單而美妙——被釋放到鋪開的菌落之間後,它對自己不匹配的那數百萬個選殖株視而不見,只鎖定那個它能與之互補的選殖株,把自己的標記恰好留在那裡,就像一張會在暗中發光的貼紙,貼到了唯一正確的那一頁上。

  1. 把文庫鋪開,讓它的菌落長成一個個分開的點,再把一張膜壓到培養皿上,原樣拓下每個菌落所在的位置。
  2. 在膜上把細胞破開,並把它們的雙鏈 DNA 拆開(變性)成單鏈,於是每個選殖株的 DNA 此刻都暴露在外、隨時可以配對。
  3. 把膜浸入帶標記探針的溶液裡。探針只在找到自己互補序列的地方雜交上去——也就是你的基因那裡。
  4. 把所有沒結合上的探針洗掉,然後檢測那個標記。唯一發亮的那個點,會指回原培養皿上攜帶你基因的那一個菌落——把它挑出來培養擴增,然後儘管選殖就是了。

搜索有多專一,歸結為一個你可以擰的旋鈕:洗滌的嚴格度。雜交所依據的物理,和DNA 解鏈是同一套——條件溫和時鏈會配對,條件變苛刻時它們就分開。一對完美匹配的探針—靶標,比一對差幾個鹼基的「險些命中」結合得更牢。所以,透過在更高溫、鹽更多或更少的條件下洗滌,你可以把只是黏到「相似」序列上的探針剝下來,而讓完美匹配的那處留在原位。把嚴格度調高,就是要求精確匹配;調低,則可以釣出那些序列只是大致相似的相關基因——這是找到一個家族成員、或在另一個物種裡找到同一基因的辦法。

可這探針一開始又是從哪來的?

這裡潛伏著一個合情合理的反駁。要做一段與你的基因互補的探針,你不是早就得知道這個基因的序列了嗎——而那恰恰是你打算去發現的東西?這聽起來像在繞圈子,而把它理清,正好顯出早期分子生物學家不得不有多麼足智多謀。你很少需要整條序列;你只需要一小段就能做出探針,而切入的誠實辦法有好幾條。如果你已經純化出該基因編碼的蛋白,你就能讀出它的幾個胺基酸,再把遺傳密碼倒著推,猜出一段必然編碼它們的 DNA。如果有同行已經從小鼠裡選殖出同一個基因,你就能拿它當探針,在低嚴格度下把人類版本釣出來。有時探針甚至就來自 cDNA 文庫本身——一種豐富的 mRNA 可以被反轉錄,再用來找出它自己的基因組選殖株。

更深一層的要點是:探針加雜交這個想法一經發明,其推廣遠遠超出了在文庫裡翻找。把你的片段按大小在凝膠上排開,轉移到一張膜上,一段帶標記的探針就會點亮攜帶你序列的是哪一條帶——這就是針對 DNA 的 [[southern-blot|Southern 印漬]],它的姊妹 Northern 印漬則對 RNA 做同樣的事,用來問一個基因是否表達、在哪裡表達。把這套邏輯鋪到一張排布著成千上萬種不同探針的玻璃片上,你就有了一塊微陣列,一次讀出整個轉錄組。把一段螢光探針送進一個完好的細胞,它就會精確地標出自己的靶標坐落在染色體的哪個位置。雜交就是一個想法——一條鏈找到它的互補鏈——卻被磨成了十幾種不同的工具。

這一切為何重要——以及後來什麼變了

請稍停片刻,體會一下文庫加探針實際成就了什麼。在大約二十年裡,這*就是*分離一個基因的辦法。想要某種遺傳病背後的基因?建一個文庫、設計一段探針、篩查那些菌落,把那個選殖株挑出來——然後只測序這一個小小的選殖株,而不是整個基因組。在還沒有任何基因組可供查閱的年代,追獵像囊狀纖維化、亨廷頓病這類疾病的基因,靠的正是這套機器,往往還要配上煞費苦心的遺傳作圖,來縮小該去探測哪些片段。要說經典分子生物學有多大一部分,實踐中其實就是「做出一個好文庫、一段好探針」的手藝,怎麼強調都不為過。

然後地基移動了,而這正是誠實地收尾的地方。兩項進展悄悄讓「手工篩查文庫」這套常規,在大多數日常用途上退了役。第一,廉價、快速的測序——人類基因組計畫,以及隨後的新一代測序——意味著參考基因組如今乾脆是*已知*的。你往往不再需要從一個實體文庫裡把基因釣出來;你直接在資料庫裡查它的序列。第二,聚合酶連鎖反應,也就是下一篇的主題,只要給它兩段夾住目標的短引物,就能在一個下午裡直接從樣本中複製出某一特定的 DNA 片段——根本不需要任何文庫。

可也別把文庫一筆勾銷、當成博物館裡的陳列品。cDNA 文庫活了下來,還被放大到面目全非的程度:把一個樣本裡的每一條 cDNA 都測序,本質上就是 RNA-seq 在做的事,它讀出一個細胞表達了哪些基因、表達得有多強——這正是最初那些 cDNA 文庫被造出來要問的同一個問題。而雜交,作為探針的核心,比以往任何時候都更鮮活:每一次螢光原位染色、每一塊微陣列、每一項靠序列來檢出病毒的診斷檢測,都是一條鏈在尋找它的互補鏈。文庫與探針的時代,給分子生物學上了一課,它再也沒忘記——你可以搜索一個你讀不出來的基因組,只需在黑暗中,讓互補的鏈彼此找到對方。