JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

从仿真到机器人基础模型

在仿真中低成本训练,跨越现实鸿沟,并认识把图像与语言直接映射为动作的新型模型。

为什么先在仿真器里训练

会学习的机器人对经验贪得无厌。要把一项任务做好,它可能需要尝试数百万次——而在真实硬件上,每一次尝试都要花时间、耗电、磨损齿轮,一次笨拙的失误还可能撞坏机器人或弄坏它手里的东西。因此,大多数机器人学习都从机器人仿真器内部开始:那是一个物理引擎,对重力、接触和摩擦的建模足够好,使得在其中练习的控制策略能学到对真实世界有用的东西。

仿真有三件礼物。它快——单台机器就能并行运行成百上千个机器人副本,远快于实时。它安全——摔倒或碰撞只需重置场景即可。它信息完全——仿真器知道每个物体的精确位置,因此可以免费地计算奖励函数,无需额外传感器。三者合起来,把缓慢的物理实验变成了一座廉价的数据工厂。

但只在仿真中训练出来的策略有个问题:仿真器不是现实。它的摩擦是猜出来的,它的电机是理想化的,它的相机图像看起来有点太干净。当你把学到的策略搬到真实机器人上时,性能会下降——有时甚至是灾难性的。这种不匹配被称为现实鸿沟,弥合它正是这场游戏的全部。

域随机化:让策略坚不可摧

跨越鸿沟最有影响力的技巧妙得违反直觉。你不去建造一个完美的仿真器并指望它和现实吻合,而是建造一千个粗糙的仿真器,并且从不告诉机器人哪一个是真的。这就是域随机化:在训练时,你在每一个回合都随机改变仿真世界——摩擦、质量、光照、相机角度,以及物体的颜色和纹理。

把世界打乱为什么有用?因为一个必须在巨大的物理范围内都成功的策略,无法死记其中任何一个版本。它被迫学到技能稳健的内核——让抓取保持居中、推到接触为止、物体滑动时及时纠正。对这样的策略而言,真实世界看上去只是它早已见过的又一个随机变体。现实变得平平无奇。

最著名的演示是一只机械手,它完全在随机化的仿真中学会了操控一个立方体,随后在它从未接触过的真实硬件上完成了手内重新定向。这是有代价的:一个被训练去应付每一种可想象世界的策略,比起针对单一精确模型调校的策略更保守,因此可能略欠利落。其中的艺术在于选择随机化的幅度——宽到足以把现实包含进去,又窄到足以保持锐利。

世界模型:让机器人去想象

到目前为止,仿真器都是我们人类造出来的。如果机器人能造出它自己的呢?这正是基于模型与无模型强化学习之分背后的想法。无模型的学习者只是通过反复试错把情境映射到动作。基于模型的学习者则先学到一个对“接下来会发生什么”的预测器——然后用它来做规划。

那个学到的预测器就是世界模型:一个由机器人从自身经验中训练出来的、紧凑的内部仿真器。给它当前状态和一个拟采取的动作,它就预测下一个状态——以及再下一个。有了世界模型在手,机器人就能在脑中预演一套计划,铺展开几十种想象中的未来,挑出能通向好结果的那个动作,而这一切都发生在任何一个真实电机转动之前。

回报是样本效率。因为机器人可以在自己的想象中生成海量练习,它达到熟练所需的真实试验次数就少得多——而当每次试验都缓慢或有风险时,这一点至关重要。难处在于世界模型本身是学来的、并不完美;如果机器人想得太远,微小的预测误差会逐步累积,想象中的未来便会漂离任何真正可能发生的情形。

前沿:视觉-语言-动作模型与机器人基础模型

经典配方是一项任务训练一个策略:这台机器人、这个物体、这间实验室。前沿提出了一个更大胆的问题——单个模型能否学会笼统地控制各种机器人?正在成形的答案是视觉-语言-动作模型,即 VLA:一个大型神经网络,它接收一张相机图像和一句指令,直接输出下一步的电机命令。

这些模型借用了那个改造了文本与图像的技巧:先在庞大而多样的数据上预训练,再做专门化。一个 VLA 从一个已经读过大半个互联网的视觉-语言模型出发,因此它一上来就知道马克杯、抽屉,以及“折叠”这个词是什么意思。随后它再在海量的机器人轨迹上微调——其中很大一部分是遥操作演示数据,由人类引导真实机器人完成任务而采集。

由于这些演示展示的是“该做什么”,而非发放奖励,这一阶段在很大程度上就是大规模的模仿学习——模型像行为克隆策略那样复制专家的行为,只是同时跨越了成千上万项任务。人们期盼的是机器人基础模型:预训练一次,之后只要用一条新指令提示它,它就能泛化,就像语言模型应对一个从未被明确训练过的问题那样。早期系统已经能够执行像“把香蕉放进碗里”这样的大白话指令,哪怕面对的是没见过的物体。

这个领域要往哪儿去?走向规模化与统一化。瓶颈已不再是想法,而是数据——机器人经验远比文本稀缺,因此各实验室正把许多种机器人的演示汇集起来,并大量灌入随机化仿真来填补缺口。一个貌似可信的未来是:一个大模型驱动许多不同的身体,从寥寥几个例子里学会一项新活计,并用日常语言加以指挥。仿真、现实鸿沟与基础模型,正汇聚成一条教机器去行动的统一流水线。