AI 助力科学，以及下一步

AlphaFold：真正推动了一门科学的 AI

在 AI 所做的一切当中，最干净利落的成功故事是AI 助力科学——而它的旗舰就是 AlphaFold。五十年来，生物学家一直面对着*蛋白质折叠问题*：蛋白质是一串氨基酸，它会自发折叠成一个精确的三维形状，而这个形状决定了蛋白质能做什么。从序列预测出形状，是一项悬而未决的宏大难题。AlphaFold 作为一个深度学习系统，做到的不只是略微推进——它把结构预测得足够准确、足以派上用场，几乎覆盖了科学界已知的每一种蛋白质。

为什么这件事成功得如此惊人，而那么多 AI 炒作却最终偃旗息鼓？有三个原因，它们正是*优秀*的 AI 助力科学的范本。第一，有一个真实、艰难、定义明确的目标，并配有一把干净的成功标尺（预测出的形状是否与实验解出的形状吻合？）。第二，几十年耐心的实验室工作已经积累出一个庞大而可信的、由已解出结构构成的数据集，可供学习。第三，团队把来自物理与几何的归纳偏置植入其中，而不是让一个通用网络从零开始去摸索三维空间。这里的教训是：当 AI 拥有一个锐利的问题、优质的数据，以及尊重该领域的结构时，它对科学的加速最为显著。

AlphaFold 是头条，但这种模式正在扩散。如今的天气与气候模型已经带有学习得来的组件，运行起来远比物理模拟快得多；AI 为化学家提出新的电池材料和催化剂供其检验；它在望远镜与粒子对撞机的数据里筛查人类会错过的罕见事件。这些都不是机器人在独自做科学。每一个都是同一个循环：一个拥有海量数据和艰难搜索问题的领域，让一个学习得来的模型把一个大得离谱的空间，收窄到值得人去关注的少数几个候选项。

具身 AI：从屏幕走进真实世界

在这条阶梯上，到目前为止几乎每个系统都活在数据之中——文本、像素、棋盘上的落子。具身 AI要做的，是给智能配上一副*身体*：一条机械臂、一台腿足机器人、一辆自动驾驶汽车——某种必须感知物理世界并据以行动的东西。这件事之所以重要，是因为物理世界以屏幕从来不会有的方式残酷而不留情面。一个答错的聊天机器人只是说了句蠢话；一个出错的机器人却会把杯子从桌上碰下去。

具身性逼出了三个纯语言模型得以回避的难题。感知必须实时地、从杂乱而带噪的传感器中起效。实时控制意味着没有花三十秒慢慢想的奢侈；世界不等你。而且数据稀缺又昂贵：你没法像扒文本那样从互联网上扒下一万亿次抓取尝试。于是研究者倚重仿真、倚重从人类示范中学习，以及强化学习——智能体通过试错与奖励来改进，正是当年驱动博弈系统的那个思路，如今被瞄准了马达与关节。

近来令人振奋的转向，是把机器人更多地当作你早先认识的那些基础模型来对待。与其为每个任务手工编写一个控制器，团队转而在庞大而多样的机器人示范集合上训练单一的大模型，使它学到可广泛迁移的技能，并且能用大白话被告知该做什么。早期结果确实令人鼓舞——也确实距离一台通用的家用机器人还很遥远。在一间它从未见过的厨房里可靠地把衣服叠好，依然很难。进步是真实的；时间表却比那些演示所暗示的更长。

神经符号：那个老想法的回归

把思绪拉回这条阶梯的开端。AI 最初的几十年由符号主义 AI主导：显式的规则、逻辑，以及手工搭建的知识表示。它透明，且擅长推理，却很脆——一旦世界不符合它的规则，它就当场碎裂。深度学习革命猛地摆向了另一端：从数据中学习模糊模式的网络，稳健而灵活，却晦涩难解，在严格逻辑、算术和遵守硬约束上摇摇晃晃。

神经符号 AI正是想把这两者联姻起来：保留学习网络的感知与模式匹配，同时把显式符号、逻辑与工具的可靠性嫁接上去。你其实已经见过它最实用的版本了。当一个大语言模型写出代码并运行它来做精确算术，或调用一个计算器、一个数据库、一个定理证明器时，那*就是*一个神经符号系统——一个神经模型，把它不擅长的那部分交给一个可被证明为可靠的符号引擎。

这直接接上了本阶梯前面讲到的智能体。一个会调用工具、查询结构化知识、把显式步骤串接起来的智能体，实践中走的正是神经符号这条路，哪怕没人这么称呼它。未来究竟是*深度*混合的架构，还是仅仅是学会了倚靠外部工具的神经模型，这是该领域一场鲜活而真正悬而未决的争论——也是一场值得关注的好争论。

user task ──► neural model ──► "this needs exact math"
                  │
                  ├──► symbolic tool (calculator / code / DB)
                  │              │
                  └──◄ reliable result ◄┘
         └──► natural-language answer to user

日常的神经符号循环：神经模型负责决策，符号工具为困难的部分提供保证。

真正的前沿在哪里

撇开头条，几个真正的前沿便凸显出来。可靠性与扎根现实：今天的模型仍会幻觉出自信满满的谬误，因为它们被训练去产生看似合理的文本，而非经过验证的真相——把它们连接到现实、让它们知道自己不知道什么，仍未解决。稳健的、跨越多步的推理与规划，使得早期一次小失误不会把整条链条葬送。持续学习：能在部署之后继续学习的系统，而不是在训练时就被冻结。还有真正的[[world-model-ai|世界模型]]——一个关于事物实际如何运作、行动会导致什么的内部模型——这正是具身 AI 尤其需要的。

同样真实的，是那些人们觉得不够光鲜、却同样重要的前沿。效率：当今的前沿模型，训练和运行都要耗费巨量的能源与金钱；用远少得多的资源做更多的事，本身就是一道前沿。数据：我们正在耗尽高质量的人类文本，这正是为什么科学、仿真与具身——这些能*生成*或测量出*新*数据的地方——如此诱人。还有评测：在衡量一个模型是真正理解，还是只在某个基准上做模式匹配这件事上，我们实在很差劲。你无法改进你无法诚实衡量的东西。

对前路的清醒之见

有两个观念为这幅大图景定下锚点。一个是苦涩的教训：纵观 AI 的历史，那些随着更多算力与数据而扩展的通用方法，可靠地打败了精巧的手工系统。这是一个有力而令人谦卑的观察——但它是一种历史规律，而非自然法则，它并不保证当前这套配方能一路扩展到一切事物。另一个是缩放定律：在更多数据上训练的更大模型，会以平滑、可预测的方式可度量地变得更好。对于它们所度量的那个损失而言，这些曲线可靠得惊人——而对于它们是否通向理解，则保持沉默。

这就把我们带到了人人都在问的那个问题：我们正在走向通用人工智能，甚至超级智能吗？诚实的回答是：没有人知道，而无论哪个方向上信誓旦旦的预测，都应让你心生警惕。今天的系统令人眼花缭乱，却仍是一种宽泛的狭义 AI——在许许多多任务上表现非凡，却依然缺少稳健的推理、扎根现实与真正的理解。理智、消息灵通的研究者们对时间表分歧极大，从“几年之内”到“我们连关键想法都还没有”。这种分歧才是该领域诚实的现状，而不是一个已成定论的事实。

无论时间表如何，只追求能力而不顾审慎都是错误的目标——这正是为什么对齐与安全应当与进步被一同提及。不是好莱坞式的末日，而是具体的、当下的问题：那些只追求一个目标字面含义、却错失其精神实质的系统，那些吸收了自身数据中偏见的系统，那些可能被滥用的系统。你能从整条阶梯中带走的最宝贵的东西，不是一个预测，而是一种姿态：好奇、具体，对炒作与末日论都不为所动。去问一个系统究竟在做什么、用的是什么数据、有哪些失败模式、又是如何度量的。无论前沿移动到多远，这个问题都将一直为你所用。