AI 助力科學，以及下一步

AlphaFold：真正推動了一門科學的 AI

在 AI 所做的一切當中，最乾淨俐落的成功故事是AI 助力科學——而它的旗艦就是 AlphaFold。五十年來，生物學家一直面對著*蛋白質摺疊問題*：蛋白質是一串胺基酸，它會自發摺疊成一個精確的三維形狀，而這個形狀決定了蛋白質能做什麼。從序列預測出形狀，是一項懸而未決的宏大難題。AlphaFold 作為一個深度學習系統，做到的不只是略微推進——它把結構預測得足夠準確、足以派上用場，幾乎覆蓋了科學界已知的每一種蛋白質。

為什麼這件事成功得如此驚人，而那麼多 AI 炒作卻最終偃旗息鼓？有三個原因，它們正是*優秀*的 AI 助力科學的範本。第一，有一個真實、艱難、定義明確的目標，並配有一把乾淨的成功標尺（預測出的形狀是否與實驗解出的形狀吻合？）。第二，幾十年耐心的實驗室工作已經積累出一個龐大而可信的、由已解出結構構成的資料集，可供學習。第三，團隊把來自物理與幾何的歸納偏置植入其中，而不是讓一個通用網路從零開始去摸索三維空間。這裡的教訓是：當 AI 擁有一個銳利的問題、優質的資料，以及尊重該領域的結構時，它對科學的加速最為顯著。

AlphaFold 是頭條，但這種模式正在擴散。如今的天氣與氣候模型已經帶有學習得來的組件，運行起來遠比物理模擬快得多；AI 為化學家提出新的電池材料和催化劑供其檢驗；它在望遠鏡與粒子對撞機的資料裡篩查人類會錯過的罕見事件。這些都不是機器人在獨自做科學。每一個都是同一個循環：一個擁有海量資料和艱難搜尋問題的領域，讓一個學習得來的模型把一個大得離譜的空間，收窄到值得人去關注的少數幾個候選項。

具身 AI：從螢幕走進真實世界

在這條階梯上，到目前為止幾乎每個系統都活在資料之中——文字、像素、棋盤上的落子。具身 AI要做的，是給智慧配上一副*身體*：一條機械臂、一台腿足機器人、一輛自動駕駛汽車——某種必須感知物理世界並據以行動的東西。這件事之所以重要，是因為物理世界以螢幕從來不會有的方式殘酷而不留情面。一個答錯的聊天機器人只是說了句蠢話；一個出錯的機器人卻會把杯子從桌上碰下去。

具身性逼出了三個純語言模型得以迴避的難題。感知必須即時地、從雜亂而帶噪的感測器中起效。即時控制意味著沒有花三十秒慢慢想的奢侈；世界不等你。而且資料稀缺又昂貴：你沒法像扒文字那樣從網際網路上扒下一兆次抓取嘗試。於是研究者倚重模擬、倚重從人類示範中學習，以及強化學習——智慧體透過試錯與獎勵來改進，正是當年驅動博弈系統的那個思路，如今被瞄準了馬達與關節。

近來令人振奮的轉向，是把機器人更多地當作你早先認識的那些基礎模型來對待。與其為每個任務手工編寫一個控制器，團隊轉而在龐大而多樣的機器人示範集合上訓練單一的大模型，使它學到可廣泛遷移的技能，並且能用大白話被告知該做什麼。早期結果確實令人鼓舞——也確實距離一台通用的家用機器人還很遙遠。在一間它從未見過的廚房裡可靠地把衣服疊好，依然很難。進步是真實的；時間表卻比那些演示所暗示的更長。

神經符號：那個老想法的回歸

把思緒拉回這條階梯的開端。AI 最初的幾十年由符號主義 AI主導：顯式的規則、邏輯，以及手工搭建的知識表示。它透明，且擅長推理，卻很脆——一旦世界不符合它的規則，它就當場碎裂。深度學習革命猛地擺向了另一端：從資料中學習模糊模式的網路，穩健而靈活，卻晦澀難解，在嚴格邏輯、算術和遵守硬約束上搖搖晃晃。

神經符號 AI正是想把這兩者聯姻起來：保留學習網路的感知與模式匹配，同時把顯式符號、邏輯與工具的可靠性嫁接上去。你其實已經見過它最實用的版本了。當一個大語言模型寫出程式碼並運行它來做精確算術，或呼叫一個計算器、一個資料庫、一個定理證明器時，那*就是*一個神經符號系統——一個神經模型，把它不擅長的那部分交給一個可被證明為可靠的符號引擎。

這直接接上了本階梯前面講到的智慧體。一個會呼叫工具、查詢結構化知識、把顯式步驟串接起來的智慧體，實踐中走的正是神經符號這條路，哪怕沒人這麼稱呼它。未來究竟是*深度*混合的架構，還是僅僅是學會了倚靠外部工具的神經模型，這是該領域一場鮮活而真正懸而未決的爭論——也是一場值得關注的好爭論。

user task ──► neural model ──► "this needs exact math"
                  │
                  ├──► symbolic tool (calculator / code / DB)
                  │              │
                  └──◄ reliable result ◄┘
         └──► natural-language answer to user

日常的神經符號循環：神經模型負責決策，符號工具為困難的部分提供保證。

真正的前沿在哪裡

撇開頭條，幾個真正的前沿便凸顯出來。可靠性與紮根現實：今天的模型仍會幻覺出自信滿滿的謬誤，因為它們被訓練去產生看似合理的文字，而非經過驗證的真相——把它們連接到現實、讓它們知道自己不知道什麼，仍未解決。穩健的、跨越多步的推理與規劃，使得早期一次小失誤不會把整條鏈條葬送。持續學習：能在部署之後繼續學習的系統，而不是在訓練時就被凍結。還有真正的[[world-model-ai|世界模型]]——一個關於事物實際如何運作、行動會導致什麼的內部模型——這正是具身 AI 尤其需要的。

同樣真實的，是那些人們覺得不夠光鮮、卻同樣重要的前沿。效率：當今的前沿模型，訓練和運行都要耗費巨量的能源與金錢；用遠少得多的資源做更多的事，本身就是一道前沿。資料：我們正在耗盡高品質的人類文本，這正是為什麼科學、模擬與具身——這些能*生成*或測量出*新*資料的地方——如此誘人。還有評測：在衡量一個模型是真正理解，還是只在某個基準上做模式匹配這件事上，我們實在很差勁。你無法改進你無法誠實衡量的東西。

對前路的清醒之見

有兩個觀念為這幅大圖景定下錨點。一個是苦澀的教訓：縱觀 AI 的歷史，那些隨著更多算力與資料而擴展的通用方法，可靠地打敗了精巧的手工系統。這是一個有力而令人謙卑的觀察——但它是一種歷史規律，而非自然法則，它並不保證當前這套配方能一路擴展到一切事物。另一個是縮放定律：在更多資料上訓練的更大模型，會以平滑、可預測的方式可度量地變得更好。對於它們所度量的那個損失而言，這些曲線可靠得驚人——而對於它們是否通向理解，則保持沉默。

這就把我們帶到了人人都在問的那個問題：我們正在走向通用人工智慧，甚至超級智慧嗎？誠實的回答是：沒有人知道，而無論哪個方向上信誓旦旦的預測，都應讓你心生警惕。今天的系統令人眼花繚亂，卻仍是一種寬泛的狹義 AI——在許許多多任務上表現非凡，卻依然缺少穩健的推理、紮根現實與真正的理解。理智、消息靈通的研究者們對時間表分歧極大，從「幾年之內」到「我們連關鍵想法都還沒有」。這種分歧才是該領域誠實的現狀，而不是一個已成定論的事實。

無論時間表如何，只追求能力而不顧審慎都是錯誤的目標——這正是為什麼對齊與安全應當與進步被一同提及。不是好萊塢式的末日，而是具體的、當下的問題：那些只追求一個目標字面含義、卻錯失其精神實質的系統，那些吸收了自身資料中偏見的系統，那些可能被濫用的系統。你能從整條階梯中帶走的最寶貴的東西，不是一個預測，而是一種姿態：好奇、具體，對炒作與末日論都不為所動。去問一個系統究竟在做什麼、用的是什麼資料、有哪些失敗模式、又是如何度量的。無論前沿移動到多遠，這個問題都將一直為你所用。