触觉:力与接触
在本主题前面,我们认识了机器人的「内耳」——那些报告自身关节与运动的传感器。它们是本体感受的:向内观察。本篇要讲的恰恰相反,是向外观察世界的外感受传感器。其中最亲密的一种就是触觉。当机器人的手压住某物时,它压得有多用力?是快把鸡蛋捏碎了,还是鸡蛋正从指间滑走?
最重要的那个装在手腕处:力/力矩传感器。想象在机器人手臂与手之间拧着一个小圆饼,它一次测量六个数字——沿三个方向(X、Y、Z)的推或拉,以及绕这三个轴的扭转。这六个数字合起来,描述了外部世界推搡这只手的所有方式。如果机器人把销钉插进孔里却卡住了,手腕会感到侧向力,控制器便可微微摆动去找到孔口——就像你感觉钥匙在锁里卡住一样。
更贴近「皮肤」的是触觉传感器——铺在指尖或手掌上的一格格微小压力点,就像机器人皮肤上一块低分辨率的触摸屏。手腕传感器报告的是一个总的合力,而触觉垫报告的是一张小地图:手指哪个部位在接触、压力的形状如何、那压力是否在滑动(这是物体即将滑脱的征兆)。这就是「知道手被推了」与「确切知道硬币落在手掌何处」之间的差别。
用光看见距离
触觉只能告诉你已经压着的东西。要提前规划,机器人需要从远处测量距离——而我们最快的信使就是光。最经典的光学测距器是激光雷达(LiDAR,光探测与测距)。它发出一束短暂的激光脉冲,等待反射弹回,并对这一来回计时。光每纳秒大约走三十厘米,所以计时器必须非常精确,但其原理不过是一种用光做成的回声:越近的表面,回声来得越早。
一束脉冲只测量一个方向。要描绘整个房间,激光雷达会扫动光束——旋转,或在场景上快速扫掠——每秒进行成千上万次测量。结果是一团点云:一群三维的点,每一个都是激光击中真实表面的位置。把一台旋转激光雷达立在走廊里,点云便勾勒出墙壁、门洞、一个走过的人——一副忠实的几何骨架,没有颜色、没有标签,只有形状。
相机给出的恰好相反:色彩丰富,却通常没有距离。RGB-D/深度相机弥补了这一点。「RGB」是普通的彩色图像;「D」是附在每一个像素上的深度值,于是画面里的每个点都同时说明它有多远。有些深度相机投射一片不可见的红外点阵,观察它在近处表面上如何扭曲;有些像逐像素的微型激光雷达那样为自己的光计时;还有些用两个镜头做三角测量,与立体视觉同理,也正是你两只眼睛用的把戏。回报是一团带颜色的点云:形状与外观兼备,正好用来发现并抓取桌上的物体。
用声音测距,用卫星定位
光并不是机器人能用的唯一回声。朴素的超声波(声呐)传感器发出一声我们听不见的高频啁啾,再聆听回声并计时——正是蝙蝠寻找飞蛾的方式,也是汽车倒车雷达在墙越来越近时滴滴声越来越急的方式。声音比光大约慢一百万倍,这在这里其实是一份馈赠:一来一回耗时以毫秒计而非纳秒,于是电路可以又便宜又简单。一个声呐只值几枚硬币,耗电极少,能可靠地回答「两米内有没有东西?」——只是它说不出精确形状,只能给出前方物体的大致距离。
触觉、光与声音都在回答「那东西离我多远?」。但室外机器人面对的是另一个问题:「我在地球上的什么地方?」这就是GNSS/GPS的工作。头顶上一群卫星,每一颗都广播着时间和自己的位置。接收器同时听到好几颗,再根据每个信号到达所花时间的细微差别,解算出自己在地球上的位置——就像靠几座远处教堂钟声传到耳边的时间长短,推算出你站在何处。
普通 GPS 把你定位到几米之内——对一台决定自己在哪条街上的配送车足够了,对在两条线之间停车却毫无用处。加上额外的校正(一种称为 RTK 的技术),GNSS 可锐化到几厘米,正因如此自动驾驶汽车和田间测绘的农业机器人都依赖它。代价是卫星信号微弱,需要开阔的天空视野,于是 GNSS 在室内、隧道里、高楼之间会失明——而那恰恰是你希望激光雷达和相机接手的地方。
为任务选对感官
没有哪种向外看的传感器样样在行;每一种都有写进其物理原理里的盲点。了解这些盲点,等于完成了设计机器人的一半。玻璃是著名的陷阱:激光雷达的激光会直接穿过窗户,或在镜子上反弹,于是机器人「看到」的是后面的房间,而非眼前的玻璃。雾、雨、尘也会散射激光,把点云抹糊。明亮的阳光则能淹没深度相机微弱的红外点阵,正因如此,那些在室内表现惊艳的相机,在正午的露台上常常半盲。
- 室内,近处需要形状与颜色(例如从桌上挑拣物体):选 RGB-D 深度相机。
- 室外或大空间,需要远距离与精确几何(例如汽车或测绘机器人):选激光雷达。
- 只需一种便宜的「附近有东西吗?」的保险杠式感知(例如扫地机器人避墙):几个超声波声呐就够了。
- 需要轻柔抓取或凭感觉装配(例如插入插头):用手腕力/力矩传感器,再配触觉垫做精细接触。
- 在开阔天空下需要知道身处地球何方(例如配送车或农用拖拉机):用 GNSS/GPS,若需厘米级则加 RTK。
更深一层的道理是:你很少只选一种。因为每种传感器都以自己的方式失灵,机器人便把它们组合起来,让一种传感器去补另一种的盲点——声呐抓住激光雷达漏掉的玻璃门,相机补上激光雷达缺的颜色,当 GPS 在隧道里掉线时车轮编码器继续撑着。把这些数据流融合成一幅可信的图景,本身就是一门手艺,叫做传感器融合,也正是本主题接下来几篇要去的方向。