机器学习的几种主要方式

「学习」不是一件事

你已经知道让人工智能区别于普通软件的那一大步：不是由人把每一条规则写死，而是让程序通过「看数据」来变好。这就是机器学习。但「看数据」其实藏着一个真问题——*到底看的是什么，又在努力把哪件事做得更好？* 这个问题的答案把机器学习分成三大类，你听说过的几乎每个系统都属于其中之一（或把几类拼在一起）。

这三大类是监督学习、无监督学习和强化学习。最干净的区分办法，是问机器得到的是哪种反馈。监督学习对每个例子都拿到一个*正确答案*；无监督学习*完全没有答案*——只有原始数据；强化学习则为自己行动的后果*偶尔*拿到奖励。仅这一个区别——反馈长什么样——就承担了绝大部分判断工作。

监督学习：从有答案的例子里学

监督学习是最常见、也最容易想象的一类。你给机器许多例子，每个例子都附带正确答案。每个例子有特征（它能看到的输入）和一个标签（你希望它给出的答案）。机器的全部工作，就是找到一个模型——一条规则——把特征映射到标签，好到足以应付它从没见过的例子。

以垃圾邮件过滤器为例。你收集成千上万封邮件，每封都已由人标好是*垃圾*还是*非垃圾*。特征可能是出现了哪些词、谁发的、含多少链接；标签就是「垃圾/非垃圾」这个判定。过滤器研究这些有答案的例子，学出一条规则，再把规则用到全新的邮件上。我们期待的是[[generalization|泛化]]——从旧邮件学到的规律，对明天的邮件依然管用。

监督学习撑起了实用 AI 中的一大块：识别欺诈、识别手写、在扫描影像上标出肿瘤、预测明日的需求。它最大的长处同时也是它最大的代价——它需要有标签的答案，而这些答案得有人（往往是真人）去造出来。一个只是把例子*背下来*、却没学到真正规律的模型，叫做[[overfitting|过拟合]]；它在学过的数据上看着很聪明，一碰到新东西就崩。

# supervised: every example carries its own answer
train on:
  ("win a free prize, click here", spam)
  ("lunch at noon?",            not_spam)
  ("verify your account now!!!", spam)

learn rule:  features  ->  label

new email -> rule -> guess: spam / not_spam

监督学习的样子：一对对的（输入，正确答案），再为新输入学出一条规则。

无监督学习：没有答案也能找出结构

无监督学习干脆把答案表整个拿掉。你交给机器一堆没有标签的数据，问一个更柔和的问题：*这里头藏着什么结构？* 没有「正确」的输出可对照——只有待浮现的规律。这让它不如监督学习那样齐整，却正好契合一种常见情形：你有大量数据，却几乎没有标签。

最经典的例子是给顾客分群。一家店有每个人买了什么的记录，但没人把他们归成「类型」。像 k 均值这样的聚类方法，会审视整个数据集，把行为相似的顾客捆在一起——这边是淘便宜的，那边是周末囤货的——而它从没被告知这些群体的存在。是机器*提出*了这些分组；之后由人来看，再判断它们是否真有意义。

除了聚类，无监督的思路还驱动着推荐、异常检测（一笔与众不同的交易可能是欺诈），以及把数据压缩到只剩精华。这里有个值得点明的麻烦：没有答案表，你就没法简单地衡量「准确率」。要判断发现的结构是否*有用*，得靠人的眼睛和领域常识——机器能分组，却没法告诉你这些组有没有价值。

强化学习：靠试错与奖励来学

强化学习最不像课堂，最像训狗或学骑车。这里没有一摞有答案的例子。取而代之的是：一个智能体在环境中行动，时不时收到一个奖励——一个数字，告诉它*刚才做得不错*或*刚才做砸了*。在一次次尝试中，它调整自己的策略（选择行动的方式），以求长远拿到更多奖励。

最有名的例子是下棋下棋。要学会围棋，系统会在一个「行动—观察」循环里下海量对局：它落子，棋盘随之变化，直到最末才知道自己是赢是输。就凭这点稀薄又滞后的信号，它一点点摸索出高水平的下法。DeepMind 的 AlphaGo 大体就是这样达到了击败人类顶尖棋手的水平——这是货真价实的里程碑，不是炒作。

强化学习在这种地方大放异彩：决策随时间一步步展开、反馈又很稀少——游戏、机器人控制、调度数据中心制冷、微调推荐。它也是三者中最「饿」、最难伺候的——可能需要上百万次尝试，这在模拟器里没问题，在真实世界里却很危险；而一个设计糟糕的奖励，会教出恰恰相反的本领。「让那个数字往上走」并不等于「做我真正想要的事」。

界线模糊之处——以及学习仍然做不到的事

在真实系统里，这三大类自由地混搭。今天聊天机器人背后的大语言模型，先是靠在海量文本里预测下一个词来训练——一种*自监督*的巧招，从原始数据本身里变出标签——之后再用「来自人类偏好的强化学习」来打磨。所以当你遇到一个光鲜的现代 AI，它通常不是某一种纯方法，而是把好几种叠在一起的配方。这三大类是字母表，不是整部文学。

也要留意这三者的共同点——以及它们的尽头。它们无一例外都是从过去学习，并赌未来与过去相像；只要世界变得够远，再聪明的模型也会出错。它们没有一个是人类意义上「理解」的；垃圾邮件过滤器根本不知道电子邮件*是什么*。而不论一个系统属于哪一类，它依旧是[[narrow-ai|窄 AI]]——在受训的那一小片上出类拔萃，出了那片就一片空白。AlphaGo 能碾压围棋冠军，却连跳棋的规则都说不上来。

请抓住核心观念，而不是那几个名词：当一台机器的行为因经验而变好，它就在学习；而那*种类*的经验——有答案的例子、无标签的数据、还是有奖励的行动——决定了它属于哪一类。带着这个问题走进下一篇指南，我们将正面端详今天的 AI 究竟能做什么、不能做什么，把真实的进展与那些喘着粗气的承诺区分开来。