JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

策略與獎勵:機器人學習的核心

策略是機器人行動的「習慣」,獎勵是告訴它哪種習慣更好的分數。

策略是一種行動的習慣

當機器人學習時,它真正學到的東西是一個策略:一條規則,它查看當前感知到的資訊,然後決定下一步做什麼。給它一個情境,它就回給你一個動作。這就是它的全部工作。你可以把策略想成機器人的習慣——不是某一個聰明的招數,而是對「以我現在所見,馬達該怎麼動?」這個問題的固定答案。

設想一個被要求整理兒童房間的機器人。狀態是它能觀察到的一切:積木在哪、籃子在哪、它自己的夾爪在哪。動作是下一個小動作——向左伸、合攏手指、放下。策略就是從每個狀態到下一個動作的映射,反覆執行,直到房間整潔。關鍵在於:策略並不是記住某一個房間,而是學到一種能在許多凌亂房間裡都管用的習慣。

獎勵把目標變成一個數字

策略本身對自己的習慣好不好並沒有看法。這個評判來自獎勵函數:每做一步之後遞給機器人的一個數字,告訴它剛才做得有多好。撿起一塊積木放進籃子也許得 +1;把籃子撞翻也許得 -5。機器人的全部目標就濃縮成一條指令——行動,使得長期累加起來的獎勵盡可能地大。

難就難在這裡。獎勵是人類唯一能表達“好”是什麼意思的地方,而機器人會毫無常識地一味追逐那個數字。如果你為每放進籃子一塊積木就給獎勵,聰明的學習者也許會發現:它可以把一塊積木取出來再放回去,無限循環,分數節節攀升,而房間依舊一團糟。機器人做的正是你打分獎勵的事——只是不是你想要的事。

不妨留意:獎勵是經典控制中誤差信號在學習世界裡的“表親”。控制器被告知確切的目標,並把誤差壓到零;而獎勵只是悄聲說“更熱了”或“更冷了”,讓機器人自己去琢磨目標在哪。這種自由,對於那些難以寫明的雜亂任務非常強大——可一旦分數與真正的目標悄悄分道揚鑣,就很危險。

獎勵塑形:撒下一路麵包屑

假設你只在房間完全整潔時才獎勵機器人。一開始它幾乎是在隨機亂動,而一個徹底整潔的房間可能要靠成千上萬次幸運的動作才碰巧湊成。在那之前獎勵一直是零,於是無從學起。這就是大海撈針式的難題:目標罕見到機器人幾乎永遠見不到那個本可教會它的信號。

獎勵塑形就是補救之道:你沿途添上一些細小而有益的提示,讓機器人不必在黑暗中學習。每當有一塊積木離籃子更近一點,就給一點點獎勵;真正放進去一塊,多給一點;全部完成,給大獎。這樣每一個合理的動作都能換來一小撮反饋,機器人便能順著這一路麵包屑走向目標,而不必苦等那唯一罕見的頭獎。

探索與利用

即便有了好的獎勵和有益的麵包屑,機器人仍面臨一個永恆的兩難,叫作探索—利用權衡。利用,就是去做迄今為止最管用的那件事——把現成的好處兌現。探索,就是去嘗試某種新的、未經檢驗的做法,賭它也許更好。任何一邊做得過頭,學習都會停滯。

想想該去哪兒吃飯。利用,就是回到你已經喜歡的那家餐館;你知道它還不錯。探索,就是去試試街角那家新店;它也許會成為你的新最愛,也許糟糕透頂。如果你總是利用,就永遠發現不了更好的;如果你總是探索,就把每一餐都浪費在賭博上,從不享受已經找到的好店。

常見的做法是:開局大膽探索——此時機器人幾乎一無所知——隨後隨著一個好策略逐漸成形,再慢慢偏向利用。這也正是為什麼大量機器人學習先在模擬中進行:一個強化學習智能體可以在模擬器裡放膽冒險、盡情探索,反正摔一跤毫無代價——然後再把打磨好的策略帶回那台真實而易損的機器上。

把各部分拼到一起

退一步看,這個循環很簡單。策略提出一個動作,世界作出回應,獎勵為結果打分,機器人據此微調自己的策略,以便下次贏得更多獎勵。塑形讓分數富有資訊、足以追隨;探索—利用的平衡則決定機器人是否敢去尋找更好的可能。如此周而復始,習慣不斷變好。

並非每個機器人都只靠獎勵學習。有時更快的辦法,是乾脆把該做的事演示給機器人看、讓它模仿你——這一類方法在模仿學習行為克隆中另作介紹。但即便在那裡,策略與獎勵也潛伏其下:演示塑造出一個策略,而某處總有一套“好”的標準,在判斷模仿得是否足夠忠實。掌握了這兩個概念,機器人學習的其餘部分便有了可以依附的脊梁。