人工智能简史

一切开始的那个夏天

1956 年的夏天，一小群研究者在达特茅斯学院聚在一起，开了一个研讨班，讨论一个大胆的想法：「学习的每一个方面，或者智能的任何其他特征，原则上都可以被精确地描述出来，以至于能造出一台机器来模拟它。」那次聚会给这个领域起了名字——人工智能——也给了它最初的乐观。你在上一篇里已经认识了作为「想法」的人工智能；在这里，我们要看着这个想法真正长大，并弄明白它为什么是磕磕绊绊地长起来的。

那时的气氛是带电的。领头人物预言，一台能匹敌完整人类心智的机器，也许一代人之内就能造出来。他们把时间表算错了，错了不止半个世纪——这种过度承诺的模式，你接下来会看到，贯穿了人工智能的整部历史。但他们说对了一件事：某种真实的东西已经开始了。从这里往后的故事，不是一条笔直的攀登线，而是一连串的浪潮：一个激动人心的新想法，节节攀升的期望，与现实的一记硬碰撞，然后是一段安静、耐心的耕耘，直到下一波到来。

规则的时代：符号主义与专家系统

第一个大赌注是：智能，归根到底，就是按逻辑规则去操作符号——和你顺着一连串「如果这样，那么那样」推下去时所做的，是同一种推理。这条路线叫作符号主义人工智能，有时被戏称为「老派人工智能」。它的设想很优雅：把人类的知识写成一条条明确的事实和规则，让机器在这之上做推理。早期的程序证明了数学定理，会下西洋跳棋，那种感觉就像通往思考的门真的裂开了一道缝。

到了 1970、80 年代，这条路线成熟为专家系统：一种把某位专家的本事，捕捉成成百上千条手写规则的程序。医疗专家系统能给出诊断建议；配置系统能为一份电脑订单开出规格清单。有那么一阵子，这些东西是真能赚钱的，热潮也是真的。它背后那个深层想法是：知识就藏在某人写下来的规则里——只要你写得够多，机器就会变聪明。

当资金冻结时：人工智能的寒冬

当宏大的承诺撞上顽固的现实，热情就崩塌了——钱也跟着崩塌。这种低潮有个名字：人工智能寒冬。大的寒冬有两次，大致在 1970 年代中期，以及 1980 年代末到 1990 年代。被那些从未兑现的许诺烫过手的出资方纷纷收手；「人工智能」一度成了一个尴尬的词，谨慎的研究者在申请经费时都避着不提。

对「寒冬」到底是什么，值得诚实地说清楚。科学并没有停下来——安静而重要的工作，一直在实验室里继续着。冻结的是炒作和资金，不是这个领域本身。而且寒冬还有一个超出「承诺落空」的原因：那个时代的想法，正饿着两样它们当时还远远吃不饱的东西——数据和算力。记住这对搭档；它就是打开这个故事余下部分的钥匙。

另一条传统：从例子里学习

一直以来，一个对手般的想法，都在阴影里悄悄生长。与其用手去写规则，何不让机器自己从例子里把模式学出来？这就是联结主义——搭建一些受大脑神经元启发的、松散而简化的网络，让它们在经验中自我调整。它最早的火花，是 1950 年代末的感知机，一台小小的学习机器，可以被训练去把简单的类别区分开。

感知机被过度吹捧，随后又在数学上被证明确有实打实的局限，于是联结主义的想法沉睡了多年。它在 1980 年代复苏——研究者们琢磨出了如何训练带许多层的网络，这个方法你以后会以反向传播之名学到。与此同时，一种更冷静、带着统计味道的机器学习，在 1990 和 2000 年代悄悄接管了真实的应用：垃圾邮件过滤、信用评分、网页搜索。这是这个领域在学一个更谦卑、更诚实的教训——把模型拟合到数据上，仔细地度量，只承诺你拿得出证据的东西。

2012 年：深度学习的点火

现代纪元有一个精确得出人意料的起火日：2012 年。在一项每年举办、让程序比拼给数百万张照片打标签的竞赛里，一个深度神经网络把对手碾压得如此干净利落，以至于这个结果一夜之间重塑了整个领域。这就是深度学习的公开登场——把许多层人工神经元叠起来，让网络自己把特征学出来，从边缘一路学到整个物体，而不再依赖人手设计的特征。

但诚实的转折在这里：那些核心想法，其实已有数十年之久。夺冠的那个深度网络，用的是 1980 年代的技术。变了的，是寒冬曾经饿着的那两样东西。互联网造出了海量带标签的数据，而游戏玩家则在无意间资助出了一件完美的工具——图形芯片（GPU），它恰好极擅长神经网络所需的那种数学。旧想法 + 海量数据 + 便宜的并行算力。这一波之所以涌起，不是因为某个人灵光独闪，而是因为「智能的整条供应链」终于对齐了。

关于这个领域反复重学的东西，有一句著名而略带苦涩的总结，叫苦涩的教训：几十年来，那些只是用更多数据和算力把通用学习「放大」的方法，往往会打败那些倚赖人手精心搭建的聪明知识的方法。它之所以苦涩，是因为研究者都疼爱自己的妙想——可一次又一次，赢的是纯粹的规模。深度学习那些年，正是这个教训携全力降临的时刻。

基础模型的纪元——以及为什么是现在

最新的这一波，把规模推到了远超任何人预期还能奏效的地步。研究者不再为每个任务单独训练一个全新模型，而是在浩瀚的文本与图像上训练出巨大的网络，造出一个单一的、通用的基础模型，随后再把它适配到许许多多的工作上。你用过的那些聊天机器人和图像生成器，正是这一切露在水面上的尖顶。关键在于，这一波乘上了 2017 年的一种架构（Transformer），它让在海量数据上高效训练这些模型成为可能。

那么，为什么是现在，而不是过去某个乐观的夏天？因为同一道配方终于成熟了：一个能够「放大」的想法、互联网规模的数据，以及便宜到足以训练「内部带着数十亿个可调数字」的模型的算力。那些浪潮，从来都不真的是关于某一次灵光乍现。它们关乎的是这三样原料一起成熟——而在人工智能历史的大部分时间里，至少总有一样是缺席的。

each wave needs all three:
  idea_that_scales  +  enough_data  +  cheap_compute

1956-70s symbolic   : strong idea, ~no data,   weak compute  -> stalls
1980s connectionism : good idea,   little data, weak compute  -> stalls
2012 deep learning  : old idea,    big data,    GPUs          -> ignites
2020s foundation    : scaled idea, web data,    huge compute  -> booms

为什么进展是一波一波的：在每个时代，只有当想法、数据和算力同时到齐，人工智能才前进——只要缺了一样，就会停滞。