JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
Back to the library
生物学 2021

用 AlphaFold 实现高精度蛋白质结构预测

约翰·江珀、戴密斯·哈萨比斯 等(DeepMind)

一个 AI 学会了折叠蛋白质——一举攻克了生物学一道悬置了 50 年的大难题。

Choose your version
In depth · the introduction

一个名为 AlphaFold 的 AI,学会了仅凭一个蛋白质的原始序列,预测它折叠后的形状——攻克了一道困住生物学半个世纪的难题。

把这个想法拆开看

蛋白质,是运转你身体的微小机器——它们消化食物、抵御感染、运送氧气。每一个蛋白质,最初都是一长串化学「珠子」(氨基酸),它会皱缩成一个特定而错综复杂的三维形状,而这个形状,就是一切:它决定了这个蛋白质能做什么。难就难在,从珠子的序列推算出形状,是出了名地困难。可能的折叠方式,比宇宙中的原子还多,而要在实验室里找到那个正确的,每个蛋白质可能要花上数年。

它从哪里来

AlphaFold 靠「从例子中学习」攻克了它。数十年来,科学家费尽心力,测出了大约 17 万个蛋白质的形状;AlphaFold 的 AI 把它们全都研究了一遍,学会了折叠背后那些隐藏的规则,于是忽然之间,它能在几分钟内预测出一个全新蛋白质的形状——往往与实验室实验一样准确。2020 年,在一场著名的同台竞技、名为 CASP 的比赛上,它把每一个对手都远远甩开,评委们宣布:这个问题,实质上已经解决了。随后,DeepMind 把它跑遍了几乎每一个已知蛋白质,逾两亿个,并把整个数据库免费奉送了出去——这项工作,也帮着赢得了 2024 年诺贝尔化学奖的一份。

它为何重要

这攻克了生物学最古老的大难题之一,并把一张近乎即时的「生命机器图」,交到了地球上每一位研究者手中。它已经在加速新药的寻找、酶的设计,以及我们对疾病的理解。它也是迄今最清晰的一个信号:AI 能够攻克真正的科学之谜,而不只是会下棋。

形状如何变成一枚指纹

有一个办法,能让你看清这个 AI 真正预测的是什么。把蛋白质的珠子按顺序排开,对每一对都问一句:「等它折叠好,这两颗会不会挨到一起?」把答案写进一张方格表——这就是一张接触图。一段卷曲,会在方格的对角线附近留下一条带;一条折回自身的链,会留下一条横跨对角线的带;一条笔直的链,则让方格一片空白。这「挨到一起」的图案,就是形状的一枚指纹——把它弄对,你基本上就拿到了那个折叠。在下方试试看。

两块相连的面板。左边,一条残基链被画成一个二维主链,其形状随所选的折叠而变——螺旋会盘成卷、发夹会折回到自身、折叠片会来回曲折、伸展链则保持笔直。右边,一张方格接触图标出:在那个形状里,哪些残基对彼此靠近——螺旋会在对角线附近形成一条带、发夹会形成一条横跨对角线的斜纹、伸展链则什么也没有。点击一个残基,会在两块面板里高亮它的接触。这些结构是示意性的图解,并非真实的蛋白质。

之后发生了什么

AlphaFold 只是个开端。更新的版本,不只预测单个蛋白质,还预测蛋白质如何彼此相扣、如何扣上 DNA 与 RNA、如何扣上那些会变成药物的小分子。同样的想法,如今正驱动着「蛋白质设计」——去造出大自然里从未存在过的全新蛋白质,让它们充当药物、疫苗,或微小的工厂。一件起初只是去「读」生命早已发明的形状的工具,正帮着发明新的形状。

The original document
Original source text
J. Jumper, R. Evans, A. Pritzel … D. Hassabis · Nature 596 (2021): 583–589
The problem
Proteins are essential to life, and understanding their structure can facilitate a mechanistic understanding of their function. Through an enormous experimental effort, the structures of around 100,000 unique proteins have been determined, but this represents a small fraction of the billions of known protein sequences.
The challenge of predicting the three-dimensional structure of a protein based solely on its amino acid sequence — the structure prediction component of the “protein folding problem” — has been an important open research problem for more than 50 years.
The result
Here we provide the first computational method that can regularly predict protein structures with atomic accuracy even in cases in which no similar structure is known.
We validated an entirely redesigned version of our neural network–based model, AlphaFold, in the challenging 14th Critical Assessment of protein Structure Prediction (CASP14), demonstrating accuracy competitive with experimental structures in a majority of cases and greatly outperforming other methods.
The full paper — with the Evoformer and structure-module architecture, the CASP14 accuracy distributions, the analysis of the per-residue pLDDT confidence measure, and the ablation studies — runs to many pages with an extensive supplement, and is available at the source below.
DeepMind, London · 2021