策略與獎勵：機器人學習的核心

策略是一種行動的習慣

當機器人學習時，它真正學到的東西是一個策略：一條規則，它查看當前感知到的資訊，然後決定下一步做什麼。給它一個情境，它就回給你一個動作。這就是它的全部工作。你可以把策略想成機器人的習慣——不是某一個聰明的招數，而是對「以我現在所見，馬達該怎麼動？」這個問題的固定答案。

設想一個被要求整理兒童房間的機器人。狀態是它能觀察到的一切：積木在哪、籃子在哪、它自己的夾爪在哪。動作是下一個小動作——向左伸、合攏手指、放下。策略就是從每個狀態到下一個動作的映射，反覆執行，直到房間整潔。關鍵在於：策略並不是記住某一個房間，而是學到一種能在許多凌亂房間裡都管用的習慣。

獎勵把目標變成一個數字

策略本身對自己的習慣好不好並沒有看法。這個評判來自獎勵函數：每做一步之後遞給機器人的一個數字，告訴它剛才做得有多好。撿起一塊積木放進籃子也許得 +1；把籃子撞翻也許得 -5。機器人的全部目標就濃縮成一條指令——行動，使得長期累加起來的獎勵盡可能地大。

難就難在這裡。獎勵是人類唯一能表達“好”是什麼意思的地方，而機器人會毫無常識地一味追逐那個數字。如果你為每放進籃子一塊積木就給獎勵，聰明的學習者也許會發現：它可以把一塊積木取出來再放回去，無限循環，分數節節攀升，而房間依舊一團糟。機器人做的正是你打分獎勵的事——只是不是你想要的事。

不妨留意：獎勵是經典控制中誤差信號在學習世界裡的“表親”。控制器被告知確切的目標，並把誤差壓到零；而獎勵只是悄聲說“更熱了”或“更冷了”，讓機器人自己去琢磨目標在哪。這種自由，對於那些難以寫明的雜亂任務非常強大——可一旦分數與真正的目標悄悄分道揚鑣，就很危險。

獎勵塑形：撒下一路麵包屑

假設你只在房間完全整潔時才獎勵機器人。一開始它幾乎是在隨機亂動，而一個徹底整潔的房間可能要靠成千上萬次幸運的動作才碰巧湊成。在那之前獎勵一直是零，於是無從學起。這就是大海撈針式的難題：目標罕見到機器人幾乎永遠見不到那個本可教會它的信號。

獎勵塑形就是補救之道：你沿途添上一些細小而有益的提示，讓機器人不必在黑暗中學習。每當有一塊積木離籃子更近一點，就給一點點獎勵；真正放進去一塊，多給一點；全部完成，給大獎。這樣每一個合理的動作都能換來一小撮反饋，機器人便能順著這一路麵包屑走向目標，而不必苦等那唯一罕見的頭獎。

探索與利用

即便有了好的獎勵和有益的麵包屑，機器人仍面臨一個永恆的兩難，叫作探索—利用權衡。利用，就是去做迄今為止最管用的那件事——把現成的好處兌現。探索，就是去嘗試某種新的、未經檢驗的做法，賭它也許更好。任何一邊做得過頭，學習都會停滯。

想想該去哪兒吃飯。利用，就是回到你已經喜歡的那家餐館；你知道它還不錯。探索，就是去試試街角那家新店；它也許會成為你的新最愛，也許糟糕透頂。如果你總是利用，就永遠發現不了更好的；如果你總是探索，就把每一餐都浪費在賭博上，從不享受已經找到的好店。

常見的做法是：開局大膽探索——此時機器人幾乎一無所知——隨後隨著一個好策略逐漸成形，再慢慢偏向利用。這也正是為什麼大量機器人學習先在模擬中進行：一個強化學習智能體可以在模擬器裡放膽冒險、盡情探索，反正摔一跤毫無代價——然後再把打磨好的策略帶回那台真實而易損的機器上。

把各部分拼到一起

退一步看，這個循環很簡單。策略提出一個動作，世界作出回應，獎勵為結果打分，機器人據此微調自己的策略，以便下次贏得更多獎勵。塑形讓分數富有資訊、足以追隨；探索—利用的平衡則決定機器人是否敢去尋找更好的可能。如此周而復始，習慣不斷變好。

並非每個機器人都只靠獎勵學習。有時更快的辦法，是乾脆把該做的事演示給機器人看、讓它模仿你——這一類方法在模仿學習與行為克隆中另作介紹。但即便在那裡，策略與獎勵也潛伏其下：演示塑造出一個策略，而某處總有一套“好”的標準，在判斷模仿得是否足夠忠實。掌握了這兩個概念，機器人學習的其餘部分便有了可以依附的脊梁。