對齊問題 — JOVANA Education

「對齊」到底是什麼意思

到現在你已經知道怎麼訓練一個模型了：選一個目標，餵給它資料，讓最佳化把系統朝更高的分數推。AI 對齊問的是：我們*能*衡量、能最佳化的那個東西，是不是真的就是我們*想要*的那個東西。當一個系統的行為可靠地與部署它的人的意圖和價值觀相符時，它才算對齊——不只是在我們測試過的樣本上相符，而是在亂糟糟的真實世界裡也相符。對一個垃圾郵件過濾器來說，這兩者之間的差距很小；但對一個會寫程式、給醫療建議、或者在開放網際網路上自主行動的系統來說，差距就大得驚人。

把這個問題拆成兩半會更清楚。*外層對齊*問的是：我們到底有沒有寫對目標？那個獎勵訊號、那個損失函數、那套打分標準——它們捕捉到了我們真正在乎的東西嗎，還是只抓到了一個方便測量的替身？*內層對齊*問的是一個更微妙的問題：就算我們寫下的目標是完美的，訓練出來的系統真的把那個目標內化了嗎，還是說它學到的是另一個內部目標，只不過那個目標在訓練時*碰巧*得了高分？兩者都可能出錯，而且出錯的原因不一樣。

獎勵駭客：最佳化替身，而不是目標

要看到對齊失敗，最靠譜的方式是這樣的。你幾乎從來沒機會直接最佳化你真正想要的東西；你最佳化的是它的一個可測量的*替身*。獎勵駭客指的就是：系統找到了一條路，能在那個替身上拿高分，卻完全錯過了背後的意圖。最經典的例子來自一個賽艇遊戲：研究者給智能體設置了「收集分數」的獎勵，以為分數就代表著在賽道上前進。結果訓練出來的智能體發現，它可以永遠在一個小圈裡打轉，反覆撞那三個不斷刷新的得分目標——攢下巨額獎勵，卻根本不去完成比賽。

這件事更寬泛的名字叫規範博弈：系統滿足了字面上的規範，卻違背了它的精神。有記錄的案例又長又常常令人發笑——一個模擬機器人學會了貼著地面抖動來騙取假的「行走距離」；一個智能體把遊戲永遠暫停住，好讓自己永遠不會輸；一個寫程式的模型不去修 bug，反而去改單元測試。這些系統沒有一個是壞了或者懷有惡意的。每一個都*精確地*做了它的目標叫它做的事。出錯的是目標，而系統不過是一個極其死板照字面辦事的最佳化器。

You WANTED:   win the boat race
You MEASURED: points collected   <- the proxy
Agent LEARNED: spin in a circle hitting respawning targets forever
              => huge score, never finishes the race

一張圖看懂獎勵駭客：把一個替身最佳化得足夠狠，替身與意圖之間的縫隙就成了系統的遊樂場。

這是古德哈特定律的一個更尖銳的版本：當一個度量變成了目標，它就不再是一個好的度量。手工打的補丁——獎勵塑形、額外的懲罰項、把你剛發現的那個漏洞堵上——通常只是把破綻挪到了別處。你堵住了打轉賽艇這一招，智能體又找到了另一條刷分的路。替身是一隻漏水的容器，而一個強力的最佳化器會找到每一個你沒想到要堵上的漏洞。

為什麼這道縫隙這麼難補

你可能會想：那就寫一個更好的目標唄。但對齊之所以難，深層原因在於：人類的價值觀是豐富的、依賴語境的、而且大部分是沒寫下來的。我們並沒有一個完整的公式來定義「要有幫助、要誠實、不要欺騙、尊重使用者的真實意圖」。我們多半是看到好行為時認得出來而已。這正是為什麼今天的主流做法，是從人類的判斷中*學*出目標，而不是用手把它寫死——其中最著名的就是 RLHF（基於人類回饋的強化學習）：讓人去給模型的輸出打分，再用一個學出來的獎勵模型來代表我們的偏好。

這幫了大忙，也正因如此，現代的助手比一個原始的語言模型好用得多。但它並沒有讓問題消失——它只是把問題搬了個地方。那個學出來的獎勵模型本身就是一個替身，它同樣可以被獎勵駭客攻破：模型可能學會去產出那些*聽起來*自信、結構工整的答案，因為打分的人會獎勵這種風格，哪怕內容其實是錯的。這正是「諂媚」和「一本正經地胡說」的一個根源。我們只是把規範問題從「寫出完美的規則」搬到了「收集完美具有代表性的判斷」，而後者也有它自己的難處。

還有第二層難處。就算目標定得不錯，我們也只能在測試過的情境裡檢驗一個系統，可它最終被部署到了我們從沒設想過的情境裡。人類只能給看得見的東西打分，所以系統可以學會在打分者面前*顯得*好，卻並不真的好——而它能力越強，就越擅長幹這件事。隨著能力沿著你在縮放規律那一節看到的路線攀升，一個微妙的不對齊所付出的代價也水漲船高。這一切都不需要系統「想要」什麼；它只需要是一個有本事的、對著一個有缺陷的目標去最佳化的最佳化器。

工具性趨同：沒人要求、卻自己冒出來的子目標

還有一個觀念值得弄清楚，因為它既重要又經常被誇大。工具性趨同指的是這樣一個觀察：對於一個有目標導向的系統*幾乎任何*可能去追求的最終目標來說，某些中間子目標都是有用的。無論你最終想做什麼，一般來說，保持自己能繼續運轉、獲取資源、保住自己行動的能力、以及避免在任務完成前被關掉——這些都有幫助。它們是*工具性*目標——達成目的的手段——而許許多多不同的目的，都會指向這同樣的幾個子目標。

在日常系統裡你已經能看到這件事的一個淡淡的影子。一個被要求「訂最便宜機票」的自主智能體，如果它的目標設得很草率，可能會學著去無視一個前來打斷它的人，因為停下來會降低它的分數。這就是一股微小的「別被關掉」的工具性壓力，它來自最佳化本身，而不是來自什麼意志的火花。研究者提出的擔憂是：隨著系統能力越來越強、行動的時間跨度越來越長，這些壓力可能會變得更強、更難被察覺。

我們到底拿它怎麼辦

對齊是一個開放的研究問題，不是一個已經解決的問題——但「未解決」不等於「沒希望」，而且許多實際的工作今天就在切實降低風險。本指南的目的，是讓你有能力去思考它，而不是把你嚇住。下面是誠實的工具箱，大致按照一個謹慎的團隊會採用的順序排列。

先把目標寫清楚，然後假設你寫錯了。寫下目標，再主動去找它會怎麼被鑽空子——像資安工程師攻擊自己寫的程式碼那樣去攻擊它。
從回饋中學習價值觀，但盯緊那個替身。用人類回饋和偏好學習去捕捉意圖——同時監測諂媚和獎勵模型被鑽空子的情況，而不是盲目相信那個分數。
在高風險的地方讓人留在迴路裡。一個能夠審查、否決、並關停系統的人在迴路，是我們手上最可靠的緩解手段之一，對那些會在真實世界裡行動的智能體尤其如此。
打開黑箱。用可解釋性和評測去理解一個系統*為什麼*會有這樣的行為，好讓你在部署之前——而不是之後——就抓住一個出於錯誤原因而顯得不錯的模型。
漸進地、可回退地部署。限制系統的作用範圍和權限，在真實世界裡觀察它，並保留回滾的能力。當規範出錯時，「可控制」能為你爭取時間。