感知接触与距离：力、触觉、激光雷达、深度与声呐

触觉：力与接触

在本主题前面，我们认识了机器人的「内耳」——那些报告自身关节与运动的传感器。它们是本体感受的：向内观察。本篇要讲的恰恰相反，是向外观察世界的外感受传感器。其中最亲密的一种就是触觉。当机器人的手压住某物时，它压得有多用力？是快把鸡蛋捏碎了，还是鸡蛋正从指间滑走？

最重要的那个装在手腕处：力/力矩传感器。想象在机器人手臂与手之间拧着一个小圆饼，它一次测量六个数字——沿三个方向（X、Y、Z）的推或拉，以及绕这三个轴的扭转。这六个数字合起来，描述了外部世界推搡这只手的所有方式。如果机器人把销钉插进孔里却卡住了，手腕会感到侧向力，控制器便可微微摆动去找到孔口——就像你感觉钥匙在锁里卡住一样。

更贴近「皮肤」的是触觉传感器——铺在指尖或手掌上的一格格微小压力点，就像机器人皮肤上一块低分辨率的触摸屏。手腕传感器报告的是一个总的合力，而触觉垫报告的是一张小地图：手指哪个部位在接触、压力的形状如何、那压力是否在滑动（这是物体即将滑脱的征兆）。这就是「知道手被推了」与「确切知道硬币落在手掌何处」之间的差别。

用光看见距离

触觉只能告诉你已经压着的东西。要提前规划，机器人需要从远处测量距离——而我们最快的信使就是光。最经典的光学测距器是激光雷达（LiDAR，光探测与测距）。它发出一束短暂的激光脉冲，等待反射弹回，并对这一来回计时。光每纳秒大约走三十厘米，所以计时器必须非常精确，但其原理不过是一种用光做成的回声：越近的表面，回声来得越早。

一束脉冲只测量一个方向。要描绘整个房间，激光雷达会扫动光束——旋转，或在场景上快速扫掠——每秒进行成千上万次测量。结果是一团点云：一群三维的点，每一个都是激光击中真实表面的位置。把一台旋转激光雷达立在走廊里，点云便勾勒出墙壁、门洞、一个走过的人——一副忠实的几何骨架，没有颜色、没有标签，只有形状。

相机给出的恰好相反：色彩丰富，却通常没有距离。RGB-D／深度相机弥补了这一点。「RGB」是普通的彩色图像；「D」是附在每一个像素上的深度值，于是画面里的每个点都同时说明它有多远。有些深度相机投射一片不可见的红外点阵，观察它在近处表面上如何扭曲；有些像逐像素的微型激光雷达那样为自己的光计时；还有些用两个镜头做三角测量，与立体视觉同理，也正是你两只眼睛用的把戏。回报是一团带颜色的点云：形状与外观兼备，正好用来发现并抓取桌上的物体。

用声音测距，用卫星定位

光并不是机器人能用的唯一回声。朴素的超声波（声呐）传感器发出一声我们听不见的高频啁啾，再聆听回声并计时——正是蝙蝠寻找飞蛾的方式，也是汽车倒车雷达在墙越来越近时滴滴声越来越急的方式。声音比光大约慢一百万倍，这在这里其实是一份馈赠：一来一回耗时以毫秒计而非纳秒，于是电路可以又便宜又简单。一个声呐只值几枚硬币，耗电极少，能可靠地回答「两米内有没有东西？」——只是它说不出精确形状，只能给出前方物体的大致距离。

触觉、光与声音都在回答「那东西离我多远？」。但室外机器人面对的是另一个问题：「我在地球上的什么地方？」这就是GNSS／GPS的工作。头顶上一群卫星，每一颗都广播着时间和自己的位置。接收器同时听到好几颗，再根据每个信号到达所花时间的细微差别，解算出自己在地球上的位置——就像靠几座远处教堂钟声传到耳边的时间长短，推算出你站在何处。

普通 GPS 把你定位到几米之内——对一台决定自己在哪条街上的配送车足够了，对在两条线之间停车却毫无用处。加上额外的校正（一种称为 RTK 的技术），GNSS 可锐化到几厘米，正因如此自动驾驶汽车和田间测绘的农业机器人都依赖它。代价是卫星信号微弱，需要开阔的天空视野，于是 GNSS 在室内、隧道里、高楼之间会失明——而那恰恰是你希望激光雷达和相机接手的地方。

为任务选对感官

没有哪种向外看的传感器样样在行；每一种都有写进其物理原理里的盲点。了解这些盲点，等于完成了设计机器人的一半。玻璃是著名的陷阱：激光雷达的激光会直接穿过窗户，或在镜子上反弹，于是机器人「看到」的是后面的房间，而非眼前的玻璃。雾、雨、尘也会散射激光，把点云抹糊。明亮的阳光则能淹没深度相机微弱的红外点阵，正因如此，那些在室内表现惊艳的相机，在正午的露台上常常半盲。

室内，近处需要形状与颜色（例如从桌上挑拣物体）：选 RGB-D 深度相机。
室外或大空间，需要远距离与精确几何（例如汽车或测绘机器人）：选激光雷达。
只需一种便宜的「附近有东西吗？」的保险杠式感知（例如扫地机器人避墙）：几个超声波声呐就够了。
需要轻柔抓取或凭感觉装配（例如插入插头）：用手腕力/力矩传感器，再配触觉垫做精细接触。
在开阔天空下需要知道身处地球何方（例如配送车或农用拖拉机）：用 GNSS/GPS，若需厘米级则加 RTK。

更深一层的道理是：你很少只选一种。因为每种传感器都以自己的方式失灵，机器人便把它们组合起来，让一种传感器去补另一种的盲点——声呐抓住激光雷达漏掉的玻璃门，相机补上激光雷达缺的颜色，当 GPS 在隧道里掉线时车轮编码器继续撑着。把这些数据流融合成一幅可信的图景，本身就是一门手艺，叫做传感器融合，也正是本主题接下来几篇要去的方向。