原始模型是模仿者,不是助手
到預訓練結束時,一個大語言模型已經讀過浩如煙海的文本,並學會了恰好一件事:預測下一個詞元。這單一技能令人驚嘆——它一路上吸收了語法、事實、程式碼和推理模式。但它真正優化的技能是*模仿*。把「我該怎麼烤麵包?」這句話交給原始模型,它很可能接著寫「我該怎麼做義大利麵?我該怎麼烤雞?」——因為在開放網路上,問題後面常常跟著*更多問題*,而不是答案。
這正是本指南餘下部分要彌合的鴻溝。預訓練模型其實*已經知道*怎麼烤麵包——知識就藏在它的權重裡。它缺的是被問到時就回答的*習慣*,是誠實而非聽起來合理的習慣,是拒絕有害請求的習慣。把一個接詞模仿者變成可用的助手,靠的不是灌入更多事實,而是重塑它的行為,讓它已有的知識在你需要時流出來。
指令微調:教會「回答」這個習慣
第一個、也是最簡單的修法是指令微調——一種微調:我們繼續訓練預訓練模型,但這次用的是一批精心整理、由人類撰寫或審核的(指令 → 理想回應)配對。「總結這篇文章:……」配上一段簡潔的摘要。「翻譯成法語:……」配上譯文。幾萬到幾百萬個這樣的樣例,涵蓋你希望模型處理的每一類任務。
從機制上看,這裡沒有任何新奇之處。用的還是預訓練裡那套預測下一個詞元的目標和那套梯度下降——只不過資料從原始網路換成了一小批精挑細選的樣例。由於模型早已學會了語言和事實,相對少量的這類樣例就足以把它的預設行為從「把文字接著寫下去」翻轉為「聽從指令」。這是遷移學習的一個生動例子:絕大部分重活在預訓練裡已經幹完,指令微調只是給它重新指了個方向。
單憑指令微調,就已經能造出感覺像助手的東西:它會回答問題、遵循格式、聽命切換任務。但它有天花板。靠示範來教,人就得*寫出*理想答案——而對許多問題並不存在唯一的理想答案,只有從「更好」到「更差」的一個譜系。該多禮貌?多詳細?多謹慎?這種含糊的偏好很難直接示範。這個局限,正是下一步要解決的。
RLHF:從偏好而非完美答案中學習
RLHF(基於人類回饋的強化學習)背後的關鍵洞見是:人不擅長*寫出*完美答案,卻非常擅長*比較*兩個答案。於是我們不再要求人類撰寫理想回應,而是讓模型生成兩個候選答案,只問人類一句「哪個更好?」這些判斷便宜、快捷,還能捕捉到那些沒有任何單一示範能傳達的模糊偏好——語氣、有用性、安全性。
這些比較被用來訓練第二個網路——獎勵模型,它的任務是給任意一段回應打出一個數字,預測人類會有多喜歡它。接著我們用強化學習去推動語言模型,使其偏向獎勵模型評分高的回應。模型成了智能體,它的回覆是動作,獎勵模型給出的分數就是獎勵——這裡的標準演算法是 PPO。實際上,獎勵模型是一個學出來的、自動化的人類評分者替身,於是語言模型可以練習上百萬次,而無需每一輪都有真人參與。
pretrain -> instruction tune -> collect A/B preferences
|
train REWARD model
|
RL: model proposes answer -> reward scores it
-> nudge model toward higher-scored repliesDPO:去掉強化學習,達成同一目標
RLHF 有效,但很繁瑣:你要訓練一個單獨的獎勵模型,再在它之上跑一個不穩定的強化學習迴圈,同時還要兼顧好幾個活動部件。直接偏好優化(DPO)提出了一個尖銳的問題——如果我們手上只有「答案 A 優於答案 B」,真的還需要中間那個獎勵模型和那套強化學習機器嗎?
DPO 的回答是「不需要」。它用一個巧妙的數學變換,把獎勵模型直接折疊進損失函數,於是你可以用普通的、類似監督學習的梯度下降在偏好配對上訓練——模型只需學著提高被偏好答案的機率、降低被拒絕答案的機率。沒有單獨的獎勵網路,也沒有強化學習迴圈。對許多團隊來說,DPO 如今是首選的第一手段,因為它更簡單、更穩定、執行成本更低,同時能達到與精調過的 RLHF 流水線相近的品質。
不要把 DPO 理解成「RLHF 錯了」。兩者追求的是*同一個*目標——把模型扳向人類的偏好——並且都依賴完全相同的寶貴資源:人類偏好資料。它們的差別在於機器,而非精神。誠實的總結是:在何種條件下哪種方法勝出,這個領域仍在積極摸索,真實系統往往混用多種技術,而不是只挑一種。
對齊是在塑造行為——而非增加智力
退一步,看看這三種技術的共同點。它們都沒有教給模型關於世界的新事實;預訓練之後,知識就已經在那裡了。它們做的是*塑造行為*——讓模型去回答而非閒扯,誠實而非僅僅聽起來合理,拒絕有害請求,並採用人們覺得有用的語氣。這種塑造正是人們所說的對齊:讓模型的行為貼合其製造者和使用者真正的意圖。
這就是為什麼一種常見看法把圖景弄反了。微調和 RLHF 並不會在很大程度上讓模型*更聰明*——它們讓模型*更好用*。一個友善、對齊良好的模型,和一個生硬的原始模型,可能共享幾乎相同的底層能力;你感受到的差別主要是行為。反過來,對齊也不會隨規模自動出現。更大的模型是更強的模仿者,但它並不會自動變得更誠實或更聽話——這些特質每一次都得被刻意訓練進去。
現在模型既有知識又樂於助人,生成式 AI 故事還剩最後一塊。我們已經塑造了模型*傾向於說什麼*;下一篇指南轉向*如何*把這些被塑造過的機率變成真正的文字,靠的是溫度、top-p 等取樣選擇。預訓練得來的大腦、對齊得來的禮貌,再加上取樣賦予的嗓音,合起來才是你打開聊天視窗時所遇見的那個東西。