JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

策略与奖励:机器人学习的核心

策略是机器人行动的“习惯”,奖励是告诉它哪种习惯更好的分数。

策略是一种行动的习惯

当机器人学习时,它真正学到的东西是一个策略:一条规则,它查看当前感知到的信息,然后决定下一步做什么。给它一个情境,它就回给你一个动作。这就是它的全部工作。你可以把策略想成机器人的习惯——不是某一个聪明的招数,而是对“以我现在所见,电机该怎么动?”这个问题的固定答案。

设想一个被要求整理儿童房间的机器人。状态是它能观察到的一切:积木在哪、篮子在哪、它自己的夹爪在哪。动作是下一个小动作——向左伸、合拢手指、放下。策略就是从每个状态到下一个动作的映射,反复执行,直到房间整洁。关键在于:策略并不是记住某一个房间,而是学到一种能在许多凌乱房间里都管用的习惯。

奖励把目标变成一个数字

策略本身对自己的习惯好不好并没有看法。这个评判来自奖励函数:每做一步之后递给机器人的一个数字,告诉它刚才做得有多好。捡起一块积木放进篮子也许得 +1;把篮子撞翻也许得 -5。机器人的全部目标就浓缩成一条指令——行动,使得长期累加起来的奖励尽可能地大。

难就难在这里。奖励是人类唯一能表达“好”是什么意思的地方,而机器人会毫无常识地一味追逐那个数字。如果你为每放进篮子一块积木就给奖励,聪明的学习者也许会发现:它可以把一块积木取出来再放回去,无限循环,分数节节攀升,而房间依旧一团糟。机器人做的正是你打分奖励的事——只是不是你想要的事。

不妨留意:奖励是经典控制中误差信号在学习世界里的“表亲”。控制器被告知确切的目标,并把误差压到零;而奖励只是悄声说“更热了”或“更冷了”,让机器人自己去琢磨目标在哪。这种自由,对于那些难以写明的杂乱任务非常强大——可一旦分数与真正的目标悄悄分道扬镳,就很危险。

奖励塑形:撒下一路面包屑

假设你只在房间完全整洁时才奖励机器人。一开始它几乎是在随机乱动,而一个彻底整洁的房间可能要靠成千上万次幸运的动作才碰巧凑成。在那之前奖励一直是零,于是无从学起。这就是大海捞针式的难题:目标罕见到机器人几乎永远见不到那个本可教会它的信号。

奖励塑形就是补救之道:你沿途添上一些细小而有益的提示,让机器人不必在黑暗中学习。每当有一块积木离篮子更近一点,就给一点点奖励;真正放进去一块,多给一点;全部完成,给大奖。这样每一个合理的动作都能换来一小撮反馈,机器人便能顺着这一路面包屑走向目标,而不必苦等那唯一罕见的头奖。

探索与利用

即便有了好的奖励和有益的面包屑,机器人仍面临一个永恒的两难,叫作探索—利用权衡。利用,就是去做迄今为止最管用的那件事——把现成的好处兑现。探索,就是去尝试某种新的、未经检验的做法,赌它也许更好。任何一边做得过头,学习都会停滞。

想想该去哪儿吃饭。利用,就是回到你已经喜欢的那家餐馆;你知道它还不错。探索,就是去试试街角那家新店;它也许会成为你的新最爱,也许糟糕透顶。如果你总是利用,就永远发现不了更好的;如果你总是探索,就把每一餐都浪费在赌博上,从不享受已经找到的好店。

常见的做法是:开局大胆探索——此时机器人几乎一无所知——随后随着一个好策略逐渐成形,再慢慢偏向利用。这也正是为什么大量机器人学习先在仿真中进行:一个强化学习智能体可以在仿真器里放胆冒险、尽情探索,反正摔一跤毫无代价——然后再把打磨好的策略带回那台真实而易损的机器上。

把各部分拼到一起

退一步看,这个循环很简单。策略提出一个动作,世界作出回应,奖励为结果打分,机器人据此微调自己的策略,以便下次赢得更多奖励。塑形让分数富有信息、足以追随;探索—利用的平衡则决定机器人是否敢去寻找更好的可能。如此周而复始,习惯不断变好。

并非每个机器人都只靠奖励学习。有时更快的办法,是干脆把该做的事演示给机器人看、让它模仿你——这一类方法在模仿学习行为克隆中另作介绍。但即便在那里,策略与奖励也潜伏其下:演示塑造出一个策略,而某处总有一套“好”的标准,在判断模仿得是否足够忠实。掌握了这两个概念,机器人学习的其余部分便有了可以依附的脊梁。