机器人为何要学习，而非照规则行事

当手写规则用尽时

几十年来，给机器人编程意味着手写规则：如果传感器读到这个，就让那个电机转动这么多。在零件总是停在同一位置的工厂流水线上，这套办法运行得很漂亮。可一旦把机器人搬进厨房、仓库过道或碎石地，规则膨胀的速度就远超任何人能写下的范围。每一种新光照、每一个略有差异的物体、每一阵风，都是编程者没料到的情况。这个世界拥有的处境，就是比人能预想的要多。

机器人学有个令人谦卑的反转：对我们毫不费力的任务，往往最难编程。这一观察有个名字，叫莫拉维克悖论——机器人能在国际象棋上击败特级大师，却可能叠不好一条毛巾、走不过一片碎石。象棋有整齐的规则；而叠毛巾牵涉柔软的材料、不断变化的摩擦，以及那种谁也无法完整写下的瞬间手感。进化花了数百万年在我们身上打磨的本领——感知与运动——恰恰是我们最难用语言说清的，更别提写成代码。

机器人到底学的是什么

拨开术语，一个会学习的机器人追求的只有一样东西：一个从「感知到的」通往「该做的」的良好映射。给定摄像头当下的画面、各关节的角度、夹爪的触感，下一步该发出什么电机指令？这种从输入到动作的映射叫做控制策略——可以把它想成机器人的习惯，是它在任意时刻被训练出的反射。手写编程试图把这套策略逐条规则写清；而学习，则是让机器人从经验中把策略养出来。

为什么「养」比「写」更好？因为学到的策略能吸收任何方程都捕捉不到的细微之处：某块布料是怎么皱起来的、轮子在湿瓷砖上如何打滑、光线怎样从金属杯上闪过。这正是具身智能的核心——真正的本领来自一具身体与杂乱物理世界的互动，而非单凭抽象推理。机器人的智能就活在感知与行动之间的循环里，靠每一次尝试不断打磨。

不妨把策略想象成一个布满旋钮的控制盒，机器人被允许重新调校它。起初旋钮是随机的，机器人手忙脚乱。每练习一轮、每看一个示例，旋钮就朝着「管用」的设定挪动一点。学习不过就是在搜寻正确的旋钮位置——多达数百万个，由系统自动找到，而非靠人手拨定。

三种配方一览

找到那些旋钮设定大致有三条路，本主线后续会逐一展开。一句话便能勾勒：从奖励中学、从示范中学，或从海量数据中学。

从奖励中学。让机器人去试，给每次尝试打个分——这个分由奖励函数给出——然后保留得分高的做法。这种试错路线，即强化学习，能发现人类想都想不到去示范的动作，代价是需要海量练习。
从示范中学。手把手地演示给机器人看——常常是牵着它的手臂、或亲手操控它——再让它照着模仿。这就是模仿学习；其最简单的形式叫行为克隆，即直接训练策略去复刻专家的动作。它快速又直观，但机器人一旦偏离示范过的路径，就可能不知所措。
从海量数据中学。把成千上万的示范和传感器日志汇集起来，训练出一个大模型来应对众多任务，就像今天的基础模型处理文本与图像那样。这类大型策略许下的承诺是：让机器人推广到从未被专门教过的新物体和新杂活上。

强大，但并非魔法

诚实地把预期摆正很有必要。学习很「吃」数据：一只真实机械臂练习抓取，可能需要上千次尝试，而每一次都要耗费实打实的秒数、磨损硬件、还冒着摔坏的风险。这正是为何大量练习都放在仿真中进行——在那里，机器人一夜之间就能把一项任务试上百万遍。问题在于，仿真器永远无法与现实完美吻合——业界把这道落差称为「现实鸿沟」——于是一个在仿真中大放异彩的策略，到了真实地面上可能就趔趄了。

学习还会继承其示例的局限。只在白天画面上训练过的策略，可能在夜里失灵；只见过红色杯子的策略，碰到蓝色的就可能笨手笨脚。由于机器人是自己找到旋钮设定的，而非遵循可读的规则，要确切知道它为何如此行动、或保证它在无人测试过的情形下依然安全，都相当困难。这些都是悬而未决的难题，而非已被解决的旧账——这恰恰是这个领域充满生气的原因。

于是诚实的小结是：我们让机器人学习，并非因为这条路毫不费力，而是因为另一条路——手工把整个杂乱世界写成脚本——根本走不通。学习是把一个我们无解的难题，换成一组我们能一点点啃下去的难题：采集数据、缩小现实鸿沟、让结果值得信赖。后续各章会把这些难题逐一拿来细说。