从仿真到机器人基础模型

为什么先在仿真器里训练

会学习的机器人对经验贪得无厌。要把一项任务做好，它可能需要尝试数百万次——而在真实硬件上，每一次尝试都要花时间、耗电、磨损齿轮，一次笨拙的失误还可能撞坏机器人或弄坏它手里的东西。因此，大多数机器人学习都从机器人仿真器内部开始：那是一个物理引擎，对重力、接触和摩擦的建模足够好，使得在其中练习的控制策略能学到对真实世界有用的东西。

仿真有三件礼物。它快——单台机器就能并行运行成百上千个机器人副本，远快于实时。它安全——摔倒或碰撞只需重置场景即可。它信息完全——仿真器知道每个物体的精确位置，因此可以免费地计算奖励函数，无需额外传感器。三者合起来，把缓慢的物理实验变成了一座廉价的数据工厂。

但只在仿真中训练出来的策略有个问题：仿真器不是现实。它的摩擦是猜出来的，它的电机是理想化的，它的相机图像看起来有点太干净。当你把学到的策略搬到真实机器人上时，性能会下降——有时甚至是灾难性的。这种不匹配被称为现实鸿沟，弥合它正是这场游戏的全部。

域随机化：让策略坚不可摧

跨越鸿沟最有影响力的技巧妙得违反直觉。你不去建造一个完美的仿真器并指望它和现实吻合，而是建造一千个粗糙的仿真器，并且从不告诉机器人哪一个是真的。这就是域随机化：在训练时，你在每一个回合都随机改变仿真世界——摩擦、质量、光照、相机角度，以及物体的颜色和纹理。

把世界打乱为什么有用？因为一个必须在巨大的物理范围内都成功的策略，无法死记其中任何一个版本。它被迫学到技能稳健的内核——让抓取保持居中、推到接触为止、物体滑动时及时纠正。对这样的策略而言，真实世界看上去只是它早已见过的又一个随机变体。现实变得平平无奇。

最著名的演示是一只机械手，它完全在随机化的仿真中学会了操控一个立方体，随后在它从未接触过的真实硬件上完成了手内重新定向。这是有代价的：一个被训练去应付每一种可想象世界的策略，比起针对单一精确模型调校的策略更保守，因此可能略欠利落。其中的艺术在于选择随机化的幅度——宽到足以把现实包含进去，又窄到足以保持锐利。

世界模型：让机器人去想象

到目前为止，仿真器都是我们人类造出来的。如果机器人能造出它自己的呢？这正是基于模型与无模型强化学习之分背后的想法。无模型的学习者只是通过反复试错把情境映射到动作。基于模型的学习者则先学到一个对“接下来会发生什么”的预测器——然后用它来做规划。

那个学到的预测器就是世界模型：一个由机器人从自身经验中训练出来的、紧凑的内部仿真器。给它当前状态和一个拟采取的动作，它就预测下一个状态——以及再下一个。有了世界模型在手，机器人就能在脑中预演一套计划，铺展开几十种想象中的未来，挑出能通向好结果的那个动作，而这一切都发生在任何一个真实电机转动之前。

回报是样本效率。因为机器人可以在自己的想象中生成海量练习，它达到熟练所需的真实试验次数就少得多——而当每次试验都缓慢或有风险时，这一点至关重要。难处在于世界模型本身是学来的、并不完美；如果机器人想得太远，微小的预测误差会逐步累积，想象中的未来便会漂离任何真正可能发生的情形。

前沿：视觉-语言-动作模型与机器人基础模型

经典配方是一项任务训练一个策略：这台机器人、这个物体、这间实验室。前沿提出了一个更大胆的问题——单个模型能否学会笼统地控制各种机器人？正在成形的答案是视觉-语言-动作模型，即 VLA：一个大型神经网络，它接收一张相机图像和一句指令，直接输出下一步的电机命令。

这些模型借用了那个改造了文本与图像的技巧：先在庞大而多样的数据上预训练，再做专门化。一个 VLA 从一个已经读过大半个互联网的视觉-语言模型出发，因此它一上来就知道马克杯、抽屉，以及“折叠”这个词是什么意思。随后它再在海量的机器人轨迹上微调——其中很大一部分是遥操作演示数据，由人类引导真实机器人完成任务而采集。

由于这些演示展示的是“该做什么”，而非发放奖励，这一阶段在很大程度上就是大规模的模仿学习——模型像行为克隆策略那样复制专家的行为，只是同时跨越了成千上万项任务。人们期盼的是机器人基础模型：预训练一次，之后只要用一条新指令提示它，它就能泛化，就像语言模型应对一个从未被明确训练过的问题那样。早期系统已经能够执行像“把香蕉放进碗里”这样的大白话指令，哪怕面对的是没见过的物体。

这个领域要往哪儿去？走向规模化与统一化。瓶颈已不再是想法，而是数据——机器人经验远比文本稀缺，因此各实验室正把许多种机器人的演示汇集起来，并大量灌入随机化仿真来填补缺口。一个貌似可信的未来是：一个大模型驱动许多不同的身体，从寥寥几个例子里学会一项新活计，并用日常语言加以指挥。仿真、现实鸿沟与基础模型，正汇聚成一条教机器去行动的统一流水线。