從預測者到行動者
到現在你已經清楚一個大語言模型究竟在做什麼:給定一段文字,它預測下一個詞元,循環往復。這就是它的全部引擎。它不會上網、不會執行程式碼、也不記得昨天——放任不管的話,它吐出一大段文字就停下了。那麼,如今人們口中的智能體是怎麼訂機票、修 bug、查檔案的呢?模型並沒有獲得新本領,是我們把它包進了一個*迴圈*裡。
一個 AI 智能體,就是一個模型,加上一個讓它能在世界中行動、並看到結果的迴圈。這副骨架你在基礎階段就見過了——一個智能主體在環境中感知、決策、行動——只不過現在的「決策者」換成了語言模型,「環境」換成了一組軟體工具。模型用文字提出一個動作;外圍程式碼去執行它,再把結果作為更多文字餵回來。沒有什麼魔法,只是一個緊湊的回饋迴路。
工具使用:給模型一雙手
從文字通向行動的橋梁,就是工具使用,也叫函式呼叫。你給模型遞上一份工具選單——每個工具都有名字、說明,以及它期待的參數形狀,比如 `get_weather(city)` 或 `run_sql(query)`。模型自己執行不了這些。當它想用某個工具時,它會輸出一段結構化的請求,點名要哪個工具、用什麼參數。你的程式碼把它解析出來,真正去執行那個函式,再把回傳值貼回對話裡。
正因如此,一個對今天一無所知的模型,依然能告訴你今天的天氣:它並不*知道*,而是去問。工具使用也是智能體讀檔案、改程式碼、查詢向量資料庫、或發起檢索的方式——用真實文件來支撐答案,而不是憑空亂猜。模型始終還是個語言模型;工具才是它的雙手。許多「智能體能力」其實不過是一套好工具,加上清晰的工具說明而已。
ReAct:思考、行動、觀察、重複
工具使用回答的是智能體*如何*行動;而 ReAct 模式回答的是*何時*行動。這個名字把推理(Reason)和行動(Act)揉在一起。模型不再脫口給出最終答案,而是先寫一句簡短的思考(「我得查一下使用者的訂單紀錄」),接著給出一個動作(呼叫 `lookup_order`),然後等待。結果作為一次觀察返回,模型再從這裡重新推理。推理、行動、觀察——一圈圈迴圈,直到它判斷任務已經完成。
Thought: I should check the current price first.
Action: get_stock_price("NVDA")
Observation: 142.30
Thought: Now compare to the user's target of 150.
Action: final_answer("Below target — not yet.")為什麼非要把思考和行動交錯在一起?因為那一步顯式的推理,本質上就是思維鏈——只不過它瞄準的是一個決策,而不是一道數學題——而把理由明明白白寫出來,確實能可測量地改善模型對工具的選擇。這還讓智能體變得*可讀*:一旦出岔子,你可以讀那串軌跡,精確看到推理在哪一步走偏了。這份可見性,正是 ReAct 一個不張揚卻真實的優點。
記憶與規劃
這個迴圈有一道硬性上限:上下文視窗。智能體此刻所「知道」的一切——指令、過往步驟、工具輸出——都得塞進那個有限的視窗裡。步驟堆得足夠多,最早的那些就會從邊緣掉出去,智能體便忘了自己在做什麼。這才是長時間執行的智能體真正需要記憶與規劃機制的原因,而不只是需要一個更大的模型。
記憶就是這道難題的解法。短期記憶不過是那份滾動的對話紀錄。長期記憶把更早的事實推到一個嵌入儲存裡,再只把當前這一步真正用得上的那幾條撈回來——這正是支撐 RAG 的檢索把戲,如今對準了智能體自己的過往。規劃是另一半:與其一步一步即興發揮,智能體先草擬一份計畫(「找到檔案、讀它、做摘要、發郵件」),再逐段執行,當現實給出回擊時重新規劃。先拆解,再逐個擊破。
工作流、多個智能體,以及誠實的邊界
一旦有了這個迴圈,你就能把它接成一條智能體工作流:一段定義好的序列,智能體的工具呼叫與決策環環相扣,去完成一件真實的工作——開工單、重現 bug、寫修補、跑測試、回報結果。有時單個智能體並不是最乾淨的設計,於是人們搭起多智能體系統:一個「規劃者」拆分任務,若干專才智能體各管一塊,一個「批評者」負責審查。這有幫助——但每一次交接都是又一個丟失上下文、或讓錯誤滾雪球的機會,所以智能體更多並不自動等於更好。
下面是誠實的部分。智能體在放大模型長處的同時,也放大它的缺陷。一個錯誤答案只是個失誤;而一個*隨即觸發動作*的錯誤答案——刪錯檔案、把郵件發給錯的人——就是帶後果的失誤。誤差會跨步驟累積:哪怕一個可靠率 95% 的步驟,連著跑二十遍,全程都對的機率也勉強只有三分之一。正因如此,正經的部署對一切不可逆的操作都會保留人在迴圈,也正因如此,「完全自主」的智能體在那種走錯一步也便宜可撤的沙盒裡表現最好。
還有一個更微妙、值得早點點名的風險。當你給智能體一個目標、並因它完成而給予獎勵時,它可能找到一條捷徑,滿足了目標的字面、卻背離了它的本意——這便是獎勵駭客的一點苗頭,也是這個領域為何如此在意對齊的原因。這些都不是末日論,而是樸素的工程問題。智能體之所以強大,恰恰因為它會行動;而凡是會行動的東西,都必須被界定範圍、被觀察、被設限。把迴圈、工具和護欄做對,「會做事的模型」就不再神祕——它成了一門設計。