JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

机器人为何要学习,而非照规则行事

真实世界太杂乱,无法逐行写死,于是我们让机器人从经验和示例中不断改进。

当手写规则用尽时

几十年来,给机器人编程意味着手写规则:如果传感器读到这个,就让那个电机转动这么多。在零件总是停在同一位置的工厂流水线上,这套办法运行得很漂亮。可一旦把机器人搬进厨房、仓库过道或碎石地,规则膨胀的速度就远超任何人能写下的范围。每一种新光照、每一个略有差异的物体、每一阵风,都是编程者没料到的情况。这个世界拥有的处境,就是比人能预想的要多。

机器人学有个令人谦卑的反转:对我们毫不费力的任务,往往最难编程。这一观察有个名字,叫莫拉维克悖论——机器人能在国际象棋上击败特级大师,却可能叠不好一条毛巾、走不过一片碎石。象棋有整齐的规则;而叠毛巾牵涉柔软的材料、不断变化的摩擦,以及那种谁也无法完整写下的瞬间手感。进化花了数百万年在我们身上打磨的本领——感知与运动——恰恰是我们最难用语言说清的,更别提写成代码。

机器人到底学的是什么

拨开术语,一个会学习的机器人追求的只有一样东西:一个从「感知到的」通往「该做的」的良好映射。给定摄像头当下的画面、各关节的角度、夹爪的触感,下一步该发出什么电机指令?这种从输入到动作的映射叫做控制策略——可以把它想成机器人的习惯,是它在任意时刻被训练出的反射。手写编程试图把这套策略逐条规则写清;而学习,则是让机器人从经验中把策略养出来。

为什么「养」比「写」更好?因为学到的策略能吸收任何方程都捕捉不到的细微之处:某块布料是怎么皱起来的、轮子在湿瓷砖上如何打滑、光线怎样从金属杯上闪过。这正是具身智能的核心——真正的本领来自一具身体与杂乱物理世界的互动,而非单凭抽象推理。机器人的智能就活在感知与行动之间的循环里,靠每一次尝试不断打磨。

不妨把策略想象成一个布满旋钮的控制盒,机器人被允许重新调校它。起初旋钮是随机的,机器人手忙脚乱。每练习一轮、每看一个示例,旋钮就朝着「管用」的设定挪动一点。学习不过就是在搜寻正确的旋钮位置——多达数百万个,由系统自动找到,而非靠人手拨定。

三种配方一览

找到那些旋钮设定大致有三条路,本主线后续会逐一展开。一句话便能勾勒:从奖励中学、从示范中学,或从海量数据中学。

  1. 从奖励中学。让机器人去试,给每次尝试打个分——这个分由奖励函数给出——然后保留得分高的做法。这种试错路线,即强化学习,能发现人类想都想不到去示范的动作,代价是需要海量练习。
  2. 从示范中学。手把手地演示给机器人看——常常是牵着它的手臂、或亲手操控它——再让它照着模仿。这就是模仿学习;其最简单的形式叫行为克隆,即直接训练策略去复刻专家的动作。它快速又直观,但机器人一旦偏离示范过的路径,就可能不知所措。
  3. 从海量数据中学。把成千上万的示范和传感器日志汇集起来,训练出一个大模型来应对众多任务,就像今天的基础模型处理文本与图像那样。这类大型策略许下的承诺是:让机器人推广到从未被专门教过的新物体和新杂活上。

强大,但并非魔法

诚实地把预期摆正很有必要。学习很「吃」数据:一只真实机械臂练习抓取,可能需要上千次尝试,而每一次都要耗费实打实的秒数、磨损硬件、还冒着摔坏的风险。这正是为何大量练习都放在仿真中进行——在那里,机器人一夜之间就能把一项任务试上百万遍。问题在于,仿真器永远无法与现实完美吻合——业界把这道落差称为「现实鸿沟」——于是一个在仿真中大放异彩的策略,到了真实地面上可能就趔趄了。

学习还会继承其示例的局限。只在白天画面上训练过的策略,可能在夜里失灵;只见过红色杯子的策略,碰到蓝色的就可能笨手笨脚。由于机器人是自己找到旋钮设定的,而非遵循可读的规则,要确切知道它为何如此行动、或保证它在无人测试过的情形下依然安全,都相当困难。这些都是悬而未决的难题,而非已被解决的旧账——这恰恰是这个领域充满生气的原因。

于是诚实的小结是:我们让机器人学习,并非因为这条路毫不费力,而是因为另一条路——手工把整个杂乱世界写成脚本——根本走不通。学习是把一个我们无解的难题,换成一组我们能一点点啃下去的难题:采集数据、缩小现实鸿沟、让结果值得信赖。后续各章会把这些难题逐一拿来细说。