人工智慧簡史

一切開始的那個夏天

1956 年的夏天，一小群研究者在達特茅斯學院聚在一起，開了一個研討班，討論一個大膽的想法：「學習的每一個方面，或者智慧的任何其他特徵，原則上都可以被精確地描述出來，以至於能造出一台機器來模擬它。」那次聚會給這個領域起了名字——人工智慧——也給了它最初的樂觀。你在上一篇裡已經認識了作為「想法」的人工智慧；在這裡，我們要看著這個想法真正長大，並弄明白它為什麼是磕磕絆絆地長起來的。

那時的氣氛是帶電的。領頭人物預言，一台能匹敵完整人類心智的機器，也許一代人之內就能造出來。他們把時間表算錯了，錯了不止半個世紀——這種過度承諾的模式，你接下來會看到，貫穿了人工智慧的整部歷史。但他們說對了一件事：某種真實的東西已經開始了。從這裡往後的故事，不是一條筆直的攀登線，而是一連串的浪潮：一個激動人心的新想法，節節攀升的期望，與現實的一記硬碰撞，然後是一段安靜、耐心的耕耘，直到下一波到來。

規則的時代：符號主義與專家系統

第一個大賭注是：智慧，歸根到底，就是按邏輯規則去操作符號——和你順著一連串「如果這樣，那麼那樣」推下去時所做的，是同一種推理。這條路線叫作符號主義人工智慧，有時被戲稱為「老派人工智慧」。它的設想很優雅：把人類的知識寫成一條條明確的事實和規則，讓機器在這之上做推理。早期的程式證明了數學定理，會下西洋跳棋，那種感覺就像通往思考的門真的裂開了一道縫。

到了 1970、80 年代，這條路線成熟為專家系統：一種把某位專家的本事，捕捉成成百上千條手寫規則的程式。醫療專家系統能給出診斷建議；配置系統能為一份電腦訂單開出規格清單。有那麼一陣子，這些東西是真能賺錢的，熱潮也是真的。它背後那個深層想法是：知識就藏在某人寫下來的規則裡——只要你寫得夠多，機器就會變聰明。

當資金凍結時：人工智慧的寒冬

當宏大的承諾撞上頑固的現實，熱情就崩塌了——錢也跟著崩塌。這種低潮有個名字：人工智慧寒冬。大的寒冬有兩次，大致在 1970 年代中期，以及 1980 年代末到 1990 年代。被那些從未兌現的許諾燙過手的出資方紛紛收手；「人工智慧」一度成了一個尷尬的詞，謹慎的研究者在申請經費時都避著不提。

對「寒冬」到底是什麼，值得誠實地說清楚。科學並沒有停下來——安靜而重要的工作，一直在實驗室裡繼續著。凍結的是炒作和資金，不是這個領域本身。而且寒冬還有一個超出「承諾落空」的原因：那個時代的想法，正餓著兩樣它們當時還遠遠吃不飽的東西——資料和算力。記住這對搭檔；它就是打開這個故事餘下部分的鑰匙。

另一條傳統：從例子裡學習

一直以來，一個對手般的想法，都在陰影裡悄悄生長。與其用手去寫規則，何不讓機器自己從例子裡把模式學出來？這就是聯結主義——搭建一些受大腦神經元啟發的、鬆散而簡化的網路，讓它們在經驗中自我調整。它最早的火花，是 1950 年代末的感知機，一台小小的學習機器，可以被訓練去把簡單的類別區分開。

感知機被過度吹捧，隨後又在數學上被證明確有實打實的侷限，於是聯結主義的想法沉睡了多年。它在 1980 年代復甦——研究者們琢磨出了如何訓練帶許多層的網路，這個方法你以後會以反向傳播之名學到。與此同時，一種更冷靜、帶著統計味道的機器學習，在 1990 和 2000 年代悄悄接管了真實的應用：垃圾郵件過濾、信用評分、網頁搜尋。這是這個領域在學一個更謙卑、更誠實的教訓——把模型擬合到資料上，仔細地度量，只承諾你拿得出證據的東西。

2012 年：深度學習的點火

現代紀元有一個精確得出人意料的起火日：2012 年。在一項每年舉辦、讓程式比拼給數百萬張照片打標籤的競賽裡，一個深度神經網路把對手輾壓得如此乾淨俐落，以至於這個結果一夜之間重塑了整個領域。這就是深度學習的公開登場——把許多層人工神經元疊起來，讓網路自己把特徵學出來，從邊緣一路學到整個物體，而不再依賴人手設計的特徵。

但誠實的轉折在這裡：那些核心想法，其實已有數十年之久。奪冠的那個深度網路，用的是 1980 年代的技術。變了的，是寒冬曾經餓著的那兩樣東西。網際網路造出了海量帶標籤的資料，而遊戲玩家則在無意間資助出了一件完美的工具——圖形晶片（GPU），它恰好極擅長神經網路所需的那種數學。舊想法 + 海量資料 + 便宜的並行算力。這一波之所以湧起，不是因為某個人靈光獨閃，而是因為「智慧的整條供應鏈」終於對齊了。

關於這個領域反覆重學的東西，有一句著名而略帶苦澀的總結，叫苦澀的教訓：幾十年來，那些只是用更多資料和算力把通用學習「放大」的方法，往往會打敗那些倚賴人手精心搭建的聰明知識的方法。它之所以苦澀，是因為研究者都疼愛自己的妙想——可一次又一次，贏的是純粹的規模。深度學習那些年，正是這個教訓攜全力降臨的時刻。

基礎模型的紀元——以及為什麼是現在

最新的這一波，把規模推到了遠超任何人預期還能奏效的地步。研究者不再為每個任務單獨訓練一個全新模型，而是在浩瀚的文本與影像上訓練出巨大的網路，造出一個單一的、通用的基礎模型，隨後再把它適配到許許多多的工作上。你用過的那些聊天機器人和影像生成器，正是這一切露在水面上的尖頂。關鍵在於，這一波乘上了 2017 年的一種架構（Transformer），它讓在海量資料上高效訓練這些模型成為可能。

那麼，為什麼是現在，而不是過去某個樂觀的夏天？因為同一道配方終於成熟了：一個能夠「放大」的想法、網際網路規模的資料，以及便宜到足以訓練「內部帶著數十億個可調數字」的模型的算力。那些浪潮，從來都不真的是關於某一次靈光乍現。它們關乎的是這三樣原料一起成熟——而在人工智慧歷史的大部分時間裡，至少總有一樣是缺席的。

each wave needs all three:
  idea_that_scales  +  enough_data  +  cheap_compute

1956-70s symbolic   : strong idea, ~no data,   weak compute  -> stalls
1980s connectionism : good idea,   little data, weak compute  -> stalls
2012 deep learning  : old idea,    big data,    GPUs          -> ignites
2020s foundation    : scaled idea, web data,    huge compute  -> booms

為什麼進展是一波一波的：在每個時代，只有當想法、資料和算力同時到齊，人工智慧才前進——只要缺了一樣，就會停滯。