微調與 RLHF：讓模型變得有用

原始模型是模仿者，不是助手

到預訓練結束時，一個大語言模型已經讀過浩如煙海的文本，並學會了恰好一件事：預測下一個詞元。這單一技能令人驚嘆——它一路上吸收了語法、事實、程式碼和推理模式。但它真正優化的技能是*模仿*。把「我該怎麼烤麵包？」這句話交給原始模型，它很可能接著寫「我該怎麼做義大利麵？我該怎麼烤雞？」——因為在開放網路上，問題後面常常跟著*更多問題*，而不是答案。

這正是本指南餘下部分要彌合的鴻溝。預訓練模型其實*已經知道*怎麼烤麵包——知識就藏在它的權重裡。它缺的是被問到時就回答的*習慣*，是誠實而非聽起來合理的習慣，是拒絕有害請求的習慣。把一個接詞模仿者變成可用的助手，靠的不是灌入更多事實，而是重塑它的行為，讓它已有的知識在你需要時流出來。

指令微調：教會「回答」這個習慣

第一個、也是最簡單的修法是指令微調——一種微調：我們繼續訓練預訓練模型，但這次用的是一批精心整理、由人類撰寫或審核的（指令 → 理想回應）配對。「總結這篇文章：……」配上一段簡潔的摘要。「翻譯成法語：……」配上譯文。幾萬到幾百萬個這樣的樣例，涵蓋你希望模型處理的每一類任務。

從機制上看，這裡沒有任何新奇之處。用的還是預訓練裡那套預測下一個詞元的目標和那套梯度下降——只不過資料從原始網路換成了一小批精挑細選的樣例。由於模型早已學會了語言和事實，相對少量的這類樣例就足以把它的預設行為從「把文字接著寫下去」翻轉為「聽從指令」。這是遷移學習的一個生動例子：絕大部分重活在預訓練裡已經幹完，指令微調只是給它重新指了個方向。

單憑指令微調，就已經能造出感覺像助手的東西：它會回答問題、遵循格式、聽命切換任務。但它有天花板。靠示範來教，人就得*寫出*理想答案——而對許多問題並不存在唯一的理想答案，只有從「更好」到「更差」的一個譜系。該多禮貌？多詳細？多謹慎？這種含糊的偏好很難直接示範。這個局限，正是下一步要解決的。

RLHF：從偏好而非完美答案中學習

RLHF（基於人類回饋的強化學習）背後的關鍵洞見是：人不擅長*寫出*完美答案，卻非常擅長*比較*兩個答案。於是我們不再要求人類撰寫理想回應，而是讓模型生成兩個候選答案，只問人類一句「哪個更好？」這些判斷便宜、快捷，還能捕捉到那些沒有任何單一示範能傳達的模糊偏好——語氣、有用性、安全性。

這些比較被用來訓練第二個網路——獎勵模型，它的任務是給任意一段回應打出一個數字，預測人類會有多喜歡它。接著我們用強化學習去推動語言模型，使其偏向獎勵模型評分高的回應。模型成了智能體，它的回覆是動作，獎勵模型給出的分數就是獎勵——這裡的標準演算法是 PPO。實際上，獎勵模型是一個學出來的、自動化的人類評分者替身，於是語言模型可以練習上百萬次，而無需每一輪都有真人參與。

pretrain  ->  instruction tune  ->  collect A/B preferences
                                          |
                                   train REWARD model
                                          |
              RL: model proposes answer  -> reward scores it
                  -> nudge model toward higher-scored replies

經典的 RLHF 流水線：基礎模型分階段被打磨，強化學習迴圈中由一個學出來的獎勵模型代替人類判斷。

DPO：去掉強化學習，達成同一目標

RLHF 有效，但很繁瑣：你要訓練一個單獨的獎勵模型，再在它之上跑一個不穩定的強化學習迴圈，同時還要兼顧好幾個活動部件。直接偏好優化（DPO）提出了一個尖銳的問題——如果我們手上只有「答案 A 優於答案 B」，真的還需要中間那個獎勵模型和那套強化學習機器嗎？

DPO 的回答是「不需要」。它用一個巧妙的數學變換，把獎勵模型直接折疊進損失函數，於是你可以用普通的、類似監督學習的梯度下降在偏好配對上訓練——模型只需學著提高被偏好答案的機率、降低被拒絕答案的機率。沒有單獨的獎勵網路，也沒有強化學習迴圈。對許多團隊來說，DPO 如今是首選的第一手段，因為它更簡單、更穩定、執行成本更低，同時能達到與精調過的 RLHF 流水線相近的品質。

不要把 DPO 理解成「RLHF 錯了」。兩者追求的是*同一個*目標——把模型扳向人類的偏好——並且都依賴完全相同的寶貴資源：人類偏好資料。它們的差別在於機器，而非精神。誠實的總結是：在何種條件下哪種方法勝出，這個領域仍在積極摸索，真實系統往往混用多種技術，而不是只挑一種。

對齊是在塑造行為——而非增加智力

退一步，看看這三種技術的共同點。它們都沒有教給模型關於世界的新事實；預訓練之後，知識就已經在那裡了。它們做的是*塑造行為*——讓模型去回答而非閒扯，誠實而非僅僅聽起來合理，拒絕有害請求，並採用人們覺得有用的語氣。這種塑造正是人們所說的對齊：讓模型的行為貼合其製造者和使用者真正的意圖。

這就是為什麼一種常見看法把圖景弄反了。微調和 RLHF 並不會在很大程度上讓模型*更聰明*——它們讓模型*更好用*。一個友善、對齊良好的模型，和一個生硬的原始模型，可能共享幾乎相同的底層能力；你感受到的差別主要是行為。反過來，對齊也不會隨規模自動出現。更大的模型是更強的模仿者，但它並不會自動變得更誠實或更聽話——這些特質每一次都得被刻意訓練進去。

現在模型既有知識又樂於助人，生成式 AI 故事還剩最後一塊。我們已經塑造了模型*傾向於說什麼*；下一篇指南轉向*如何*把這些被塑造過的機率變成真正的文字，靠的是溫度、top-p 等取樣選擇。預訓練得來的大腦、對齊得來的禮貌，再加上取樣賦予的嗓音，合起來才是你打開聊天視窗時所遇見的那個東西。