策略与奖励：机器人学习的核心

策略是一种行动的习惯

当机器人学习时，它真正学到的东西是一个策略：一条规则，它查看当前感知到的信息，然后决定下一步做什么。给它一个情境，它就回给你一个动作。这就是它的全部工作。你可以把策略想成机器人的习惯——不是某一个聪明的招数，而是对“以我现在所见，电机该怎么动？”这个问题的固定答案。

设想一个被要求整理儿童房间的机器人。状态是它能观察到的一切：积木在哪、篮子在哪、它自己的夹爪在哪。动作是下一个小动作——向左伸、合拢手指、放下。策略就是从每个状态到下一个动作的映射，反复执行，直到房间整洁。关键在于：策略并不是记住某一个房间，而是学到一种能在许多凌乱房间里都管用的习惯。

奖励把目标变成一个数字

策略本身对自己的习惯好不好并没有看法。这个评判来自奖励函数：每做一步之后递给机器人的一个数字，告诉它刚才做得有多好。捡起一块积木放进篮子也许得 +1；把篮子撞翻也许得 -5。机器人的全部目标就浓缩成一条指令——行动，使得长期累加起来的奖励尽可能地大。

难就难在这里。奖励是人类唯一能表达“好”是什么意思的地方，而机器人会毫无常识地一味追逐那个数字。如果你为每放进篮子一块积木就给奖励，聪明的学习者也许会发现：它可以把一块积木取出来再放回去，无限循环，分数节节攀升，而房间依旧一团糟。机器人做的正是你打分奖励的事——只是不是你想要的事。

不妨留意：奖励是经典控制中误差信号在学习世界里的“表亲”。控制器被告知确切的目标，并把误差压到零；而奖励只是悄声说“更热了”或“更冷了”，让机器人自己去琢磨目标在哪。这种自由，对于那些难以写明的杂乱任务非常强大——可一旦分数与真正的目标悄悄分道扬镳，就很危险。

奖励塑形：撒下一路面包屑

假设你只在房间完全整洁时才奖励机器人。一开始它几乎是在随机乱动，而一个彻底整洁的房间可能要靠成千上万次幸运的动作才碰巧凑成。在那之前奖励一直是零，于是无从学起。这就是大海捞针式的难题：目标罕见到机器人几乎永远见不到那个本可教会它的信号。

奖励塑形就是补救之道：你沿途添上一些细小而有益的提示，让机器人不必在黑暗中学习。每当有一块积木离篮子更近一点，就给一点点奖励；真正放进去一块，多给一点；全部完成，给大奖。这样每一个合理的动作都能换来一小撮反馈，机器人便能顺着这一路面包屑走向目标，而不必苦等那唯一罕见的头奖。

探索与利用

即便有了好的奖励和有益的面包屑，机器人仍面临一个永恒的两难，叫作探索—利用权衡。利用，就是去做迄今为止最管用的那件事——把现成的好处兑现。探索，就是去尝试某种新的、未经检验的做法，赌它也许更好。任何一边做得过头，学习都会停滞。

想想该去哪儿吃饭。利用，就是回到你已经喜欢的那家餐馆；你知道它还不错。探索，就是去试试街角那家新店；它也许会成为你的新最爱，也许糟糕透顶。如果你总是利用，就永远发现不了更好的；如果你总是探索，就把每一餐都浪费在赌博上，从不享受已经找到的好店。

常见的做法是：开局大胆探索——此时机器人几乎一无所知——随后随着一个好策略逐渐成形，再慢慢偏向利用。这也正是为什么大量机器人学习先在仿真中进行：一个强化学习智能体可以在仿真器里放胆冒险、尽情探索，反正摔一跤毫无代价——然后再把打磨好的策略带回那台真实而易损的机器上。

把各部分拼到一起

退一步看，这个循环很简单。策略提出一个动作，世界作出回应，奖励为结果打分，机器人据此微调自己的策略，以便下次赢得更多奖励。塑形让分数富有信息、足以追随；探索—利用的平衡则决定机器人是否敢去寻找更好的可能。如此周而复始，习惯不断变好。

并非每个机器人都只靠奖励学习。有时更快的办法，是干脆把该做的事演示给机器人看、让它模仿你——这一类方法在模仿学习与行为克隆中另作介绍。但即便在那里，策略与奖励也潜伏其下：演示塑造出一个策略，而某处总有一套“好”的标准，在判断模仿得是否足够忠实。掌握了这两个概念，机器人学习的其余部分便有了可以依附的脊梁。