基因文庫與探針

針，以及一個你看不見的草垛

在這一篇之前的幾篇裡，你已經攢起了一套強大的工具箱。[[restriction-endonuclease|限制酶]]在確定的序列處切開 DNA，留下你可以重新接合的末端；[[cloning-vector|選殖載體]]把一段外源片段帶進細菌裡；[[bacterial-transformation|轉化]]把這個載體送進去，再由一道篩選告訴你哪些菌落接收了它。把這些拼在一起，你就能把某一選定的 DNA 片段複製成無窮無盡、彼此相同的拷貝——也就是把它選殖出來。但這一切都假定你*已經*擁有你想要的那段、它正躺在試管裡。這一篇要回答更難、更靠前的那個問題：當你關心的基因埋在三十億個鹼基對的人類 DNA 裡某處時，你究竟一開始是怎麼把它弄到手的？

先體會一下這賠率有多殘酷，會很有幫助。一個人類基因或許有一千個字母長，卻迷失在一個比它大三百萬倍的基因組裡。你看不見一個基因；你也沒法用鑷子把它挑出來。而且——這是關鍵的歷史要點——在這些技術被發明出來的那個年代，也就是 1970、1980 年代的大部分時間裡，*沒有人讀過基因組*。沒有哪張地圖會告訴你這個基因在 7 號染色體的某某位置上。整個基因組當時還沒被測序，要等到 [[molbio-human-genome-project|人類基因組計畫]]在 2003 年前後完成才行。所以這道難題比大海撈針還要尖銳：它是要在一個誰都沒編過目錄的草垛裡，找出某一根特定的針。

基因組文庫：把整個基因組切成片段

先從更字面意義上的那種收藏說起，也就是[[genomic-library|基因組文庫]]。取一個生物的整個基因組，把它切開——通常用限制酶，而且往往只是部分切割，好讓切口落在零散、彼此重疊的位點上，而不是一下子把每個位點都剁斷。你最後會得到數百萬個片段，它們合在一起，從頭到尾覆蓋整個基因組，包括基因之間的部分，以及基因內部那些非編碼的片段。接著把每個片段連接進一個載體裡，再把整鍋混合物轉化進細菌。每個細菌接收一個片段；每個細菌長成一個菌落，裡面全是攜帶著那一個片段的相同細胞。這全套菌落——數以百萬計——就是文庫。基因組這本書的每一頁都在裡頭某處，已被複製、隨時可讀，哪怕你壓根不知道哪個菌落裝著哪一頁。

你究竟需要多少個選殖株？要多到憑純粹的機率，基因組的每一部分都至少被代表一次——再為保險起見多重複幾次，因為切割是部分的、隨機的。基因組越大、每個載體能裝的片段越小，需要的選殖株就越多。這正是分子生物學家後來看重大容量載體的原因：一個能攜帶更大插入片段的載體，意味著覆蓋基因組所需的片段更少，於是文庫也更易於打理。這套算術毫不留情，卻很簡單——覆蓋度無非就是基因組大小除以插入片段大小，再乘上一個安全係數。

第二種文庫更巧妙，它依託的是你在這條階梯最開頭就遇到過的一個想法。基因組文庫忠實卻不加分辨——它把每個基因都收進來，不管它有沒有被用過，還連帶收進了基因之間所有非編碼的「荒漠」。很多時候你並不想要這些。很多時候你只想要某個特定細胞*實際正在表達*的那些基因，而且想要它們被剝掉那些讓真核基因顯得雜亂的內含子。訣竅是：根本不從 DNA 出發，而從信使 RNA 出發。在任何一個給定的細胞裡，mRNA 分子的總體，正是一張快照，精確記錄著哪些基因被打開了、又各自有多豐富。

cDNA 文庫：只收那些被打開的基因

但你沒法直接選殖 RNA——載體和細菌打交道的對象是 DNA。於是你用一種叫[[molbio-reverse-transcriptase|反轉錄酶]]的酶把 RNA 反過來拷貝成 DNA，這種酶借自反轉錄病毒，它讀取一條 RNA 鏈，再沿著它鋪出一條互補的 DNA 鏈。你得到的 DNA 叫作互補 DNA，即 cDNA，而把一批 cDNA 選殖進載體所成的收藏，就是 [[cdna-library|cDNA 文庫]]。請在剛發生的這件事上停一下，因為它悄悄戳破了一個常見的誤解。[[molbio-central-dogma|中心法則]]常被誤記成一條單行道法則——DNA -> RNA -> 蛋白質，絕不倒流。它從來不是這個意思。中心法則講的是*序列資訊流入蛋白質*；它並不禁止資訊從 RNA 再回到 DNA。反轉錄酶做的恰恰就是這件事，無論在自然界還是在你的試管裡，而 cDNA 文庫正建立在它之上。

GENOMIC clone  (a slice of the chromosome, introns and all):
  5'- promoter ... EXON1 -[ intron ]- EXON2 -[ intron ]- EXON3 ... -3'

               cell splices out introns, makes mature mRNA
                                  |
                                  v
mature mRNA :   5'-cap- EXON1-EXON2-EXON3 -AAAAA(polyA tail)-3'

               reverse transcriptase copies mRNA -> DNA
                                  |
                                  v
cDNA clone    (intron-free, just the coding message):
  5'- EXON1-EXON2-EXON3 -3'

基因組選殖株保留內含子和調控 DNA；cDNA 選殖株則是剪接後的信使被反轉錄回 DNA——內含子早已被去掉。

因此這兩種文庫之間的差別絕非裝點門面——它是*各自保存何種資訊*上的差別，而你想要哪一種，完全取決於你的問題。基因組選殖株保留著基因在染色體裡的樣子：內含子、啟動子、調控序列，應有盡有。如果你想研究一個基因是怎樣被打開的，這層上下文就是金子。cDNA 選殖株則只保留成熟、剪接好的信使——外顯子被縫合在一起，隨時可以編碼蛋白。如果你的目標是在細菌裡造出一種人類蛋白，那 cDNA 不可或缺，因為細菌沒法把一個真核基因的內含子剪掉；要是把未經處理的基因組版本交給它們，它們會逕直把內含子也翻譯進去，譯出一堆無意義的東西。

探針：靠鹼基配對找出那一個選殖株

現在你有了一個文庫——一隻培養皿，裡頭滿是數百萬個菌落，其中某一個裝著你的基因。你怎麼把它找出來？你利用 DNA 那個最可靠的性質，也是這整條階梯一再回到的那個性質：一條單鏈會去尋找並結合它的互補鏈。A 與 T 隔著空間伸手配對，G 與 C 亦然；一有機會，兩條序列匹配的鏈就會拉合成一個雙螺旋、並穩穩待在那裡。這種靠互補來識別的本領，是[[nucleic-acid-hybridization|雜交]]的根基，也是整個分子生物學中專一性最為精妙的搜索工具。你根本不需要讀出任何序列就能找到你的基因；你只需要一段與它匹配的 DNA。

那段匹配的片段就是[[molecular-probe|探針]]：一小段單鏈 DNA（或 RNA），其序列與你的目標基因的某一部分互補，並帶著一個標記，好讓你看出它最終落在哪裡。經典做法裡，這個標記是一個放射性原子，會讓一張照相底片感光成霧；如今則更常是一種螢光染料，或一種能產生顏色的酶。探針的任務簡單而美妙——被釋放到鋪開的菌落之間後，它對自己不匹配的那數百萬個選殖株視而不見，只鎖定那個它能與之互補的選殖株，把自己的標記恰好留在那裡，就像一張會在暗中發光的貼紙，貼到了唯一正確的那一頁上。

把文庫鋪開，讓它的菌落長成一個個分開的點，再把一張膜壓到培養皿上，原樣拓下每個菌落所在的位置。
在膜上把細胞破開，並把它們的雙鏈 DNA 拆開（變性）成單鏈，於是每個選殖株的 DNA 此刻都暴露在外、隨時可以配對。
把膜浸入帶標記探針的溶液裡。探針只在找到自己互補序列的地方雜交上去——也就是你的基因那裡。
把所有沒結合上的探針洗掉，然後檢測那個標記。唯一發亮的那個點，會指回原培養皿上攜帶你基因的那一個菌落——把它挑出來培養擴增，然後儘管選殖就是了。

搜索有多專一，歸結為一個你可以擰的旋鈕：洗滌的嚴格度。雜交所依據的物理，和DNA 解鏈是同一套——條件溫和時鏈會配對，條件變苛刻時它們就分開。一對完美匹配的探針—靶標，比一對差幾個鹼基的「險些命中」結合得更牢。所以，透過在更高溫、鹽更多或更少的條件下洗滌，你可以把只是黏到「相似」序列上的探針剝下來，而讓完美匹配的那處留在原位。把嚴格度調高，就是要求精確匹配；調低，則可以釣出那些序列只是大致相似的相關基因——這是找到一個家族成員、或在另一個物種裡找到同一基因的辦法。

可這探針一開始又是從哪來的？

這裡潛伏著一個合情合理的反駁。要做一段與你的基因互補的探針，你不是早就得知道這個基因的序列了嗎——而那恰恰是你打算去發現的東西？這聽起來像在繞圈子，而把它理清，正好顯出早期分子生物學家不得不有多麼足智多謀。你很少需要整條序列；你只需要一小段就能做出探針，而切入的誠實辦法有好幾條。如果你已經純化出該基因編碼的蛋白，你就能讀出它的幾個胺基酸，再把遺傳密碼倒著推，猜出一段必然編碼它們的 DNA。如果有同行已經從小鼠裡選殖出同一個基因，你就能拿它當探針，在低嚴格度下把人類版本釣出來。有時探針甚至就來自 cDNA 文庫本身——一種豐富的 mRNA 可以被反轉錄，再用來找出它自己的基因組選殖株。

更深一層的要點是：探針加雜交這個想法一經發明，其推廣遠遠超出了在文庫裡翻找。把你的片段按大小在凝膠上排開，轉移到一張膜上，一段帶標記的探針就會點亮攜帶你序列的是哪一條帶——這就是針對 DNA 的 [[southern-blot|Southern 印漬]]，它的姊妹 Northern 印漬則對 RNA 做同樣的事，用來問一個基因是否表達、在哪裡表達。把這套邏輯鋪到一張排布著成千上萬種不同探針的玻璃片上，你就有了一塊微陣列，一次讀出整個轉錄組。把一段螢光探針送進一個完好的細胞，它就會精確地標出自己的靶標坐落在染色體的哪個位置。雜交就是一個想法——一條鏈找到它的互補鏈——卻被磨成了十幾種不同的工具。

這一切為何重要——以及後來什麼變了

請稍停片刻，體會一下文庫加探針實際成就了什麼。在大約二十年裡，這*就是*分離一個基因的辦法。想要某種遺傳病背後的基因？建一個文庫、設計一段探針、篩查那些菌落，把那個選殖株挑出來——然後只測序這一個小小的選殖株，而不是整個基因組。在還沒有任何基因組可供查閱的年代，追獵像囊狀纖維化、亨廷頓病這類疾病的基因，靠的正是這套機器，往往還要配上煞費苦心的遺傳作圖，來縮小該去探測哪些片段。要說經典分子生物學有多大一部分，實踐中其實就是「做出一個好文庫、一段好探針」的手藝，怎麼強調都不為過。

然後地基移動了，而這正是誠實地收尾的地方。兩項進展悄悄讓「手工篩查文庫」這套常規，在大多數日常用途上退了役。第一，廉價、快速的測序——人類基因組計畫，以及隨後的新一代測序——意味著參考基因組如今乾脆是*已知*的。你往往不再需要從一個實體文庫裡把基因釣出來；你直接在資料庫裡查它的序列。第二，聚合酶連鎖反應，也就是下一篇的主題，只要給它兩段夾住目標的短引物，就能在一個下午裡直接從樣本中複製出某一特定的 DNA 片段——根本不需要任何文庫。

可也別把文庫一筆勾銷、當成博物館裡的陳列品。cDNA 文庫活了下來，還被放大到面目全非的程度：把一個樣本裡的每一條 cDNA 都測序，本質上就是 RNA-seq 在做的事，它讀出一個細胞表達了哪些基因、表達得有多強——這正是最初那些 cDNA 文庫被造出來要問的同一個問題。而雜交，作為探針的核心，比以往任何時候都更鮮活：每一次螢光原位染色、每一塊微陣列、每一項靠序列來檢出病毒的診斷檢測，都是一條鏈在尋找它的互補鏈。文庫與探針的時代，給分子生物學上了一課，它再也沒忘記——你可以搜索一個你讀不出來的基因組，只需在黑暗中，讓互補的鏈彼此找到對方。