JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
Back to the library
生物學 2021

用 AlphaFold 實現高精度蛋白質結構預測

約翰·江珀、戴密斯·哈薩比斯 等(DeepMind)

一個 AI 學會了摺疊蛋白質——一舉攻克了生物學一道懸置了 50 年的大難題。

Choose your version
In depth · the introduction

一個名為 AlphaFold 的 AI,學會了僅憑一個蛋白質的原始序列,預測它摺疊後的形狀——攻克了一道困住生物學半個世紀的難題。

把這個想法拆開看

蛋白質,是運轉你身體的微小機器——牠們消化食物、抵禦感染、運送氧氣。每一個蛋白質,最初都是一長串化學「珠子」(胺基酸),它會皺縮成一個特定而錯綜複雜的三維形狀,而這個形狀,就是一切:它決定了這個蛋白質能做什麼。難就難在,從珠子的序列推算出形狀,是出了名地困難。可能的摺疊方式,比宇宙中的原子還多,而要在實驗室裡找到那個正確的,每個蛋白質可能要花上數年。

它從哪裡來

AlphaFold 靠「從例子中學習」攻克了它。數十年來,科學家費盡心力,測出了大約 17 萬個蛋白質的形狀;AlphaFold 的 AI 把牠們全都研究了一遍,學會了摺疊背後那些隱藏的規則,於是忽然之間,它能在幾分鐘內預測出一個全新蛋白質的形狀——往往與實驗室實驗一樣準確。2020 年,在一場著名的同臺競技、名為 CASP 的比賽上,它把每一個對手都遠遠甩開,評委們宣布:這個問題,實質上已經解決了。隨後,DeepMind 把它跑遍了幾乎每一個已知蛋白質,逾兩億個,並把整個資料庫免費奉送了出去——這項工作,也幫著贏得了 2024 年諾貝爾化學獎的一份。

它為何重要

這攻克了生物學最古老的大難題之一,並把一張近乎即時的「生命機器圖」,交到了地球上每一位研究者手中。它已經在加速新藥的尋找、酶的設計,以及我們對疾病的理解。它也是迄今最清晰的一個信號:AI 能夠攻克真正的科學之謎,而不只是會下棋。

形狀如何變成一枚指紋

有一個辦法,能讓你看清這個 AI 真正預測的是什麼。把蛋白質的珠子按順序排開,對每一對都問一句:「等它摺疊好,這兩顆會不會挨到一起?」把答案寫進一張方格表——這就是一張接觸圖。一段卷曲,會在方格的對角線附近留下一條帶;一條折回自身的鏈,會留下一條橫跨對角線的帶;一條筆直的鏈,則讓方格一片空白。這「挨到一起」的圖案,就是形狀的一枚指紋——把它弄對,你基本上就拿到了那個摺疊。在下方試試看。

兩塊相連的面板。左邊,一條殘基鏈被畫成一個二維主鏈,其形狀隨所選的摺疊而變——螺旋會盤成卷、髮夾會折回到自身、摺疊片會來回曲折、伸展鏈則保持筆直。右邊,一張方格接觸圖標出:在那個形狀裡,哪些殘基對彼此靠近——螺旋會在對角線附近形成一條帶、髮夾會形成一條橫跨對角線的斜紋、伸展鏈則什麼也沒有。點擊一個殘基,會在兩塊面板裡高亮牠的接觸。這些結構是示意性的圖解,並非真實的蛋白質。

之後發生了什麼

AlphaFold 只是個開端。更新的版本,不只預測單個蛋白質,還預測蛋白質如何彼此相扣、如何扣上 DNA 與 RNA、如何扣上那些會變成藥物的小分子。同樣的想法,如今正驅動著「蛋白質設計」——去造出大自然裡從未存在過的全新蛋白質,讓牠們充當藥物、疫苗,或微小的工廠。一件起初只是去「讀」生命早已發明的形狀的工具,正幫著發明新的形狀。

The original document
Original source text
J. Jumper, R. Evans, A. Pritzel … D. Hassabis · Nature 596 (2021): 583–589
The problem
Proteins are essential to life, and understanding their structure can facilitate a mechanistic understanding of their function. Through an enormous experimental effort, the structures of around 100,000 unique proteins have been determined, but this represents a small fraction of the billions of known protein sequences.
The challenge of predicting the three-dimensional structure of a protein based solely on its amino acid sequence — the structure prediction component of the “protein folding problem” — has been an important open research problem for more than 50 years.
The result
Here we provide the first computational method that can regularly predict protein structures with atomic accuracy even in cases in which no similar structure is known.
We validated an entirely redesigned version of our neural network–based model, AlphaFold, in the challenging 14th Critical Assessment of protein Structure Prediction (CASP14), demonstrating accuracy competitive with experimental structures in a majority of cases and greatly outperforming other methods.
The full paper — with the Evoformer and structure-module architecture, the CASP14 accuracy distributions, the analysis of the per-residue pLDDT confidence measure, and the ablation studies — runs to many pages with an extensive supplement, and is available at the source below.
DeepMind, London · 2021