JOVANA
Library Glossary Getting Started Three Levels Fields How it works Mission
Join the mission
All guides

机器学习的几种主要方式

机器并非只用一种方式学习。本文带你认识三大类学习方式——从带标签的例子里学、在原始数据中找规律、靠试错与奖励来学——每一类都配一个具体例子,并坦诚地说明它们各自适合什么场景。

「学习」不是一件事

你已经知道让 人工智能 区别于普通软件的那一大步:不是由人把每一条规则写死,而是让程序通过「看数据」来变好。这就是机器学习。但「看数据」其实藏着一个真问题——*到底看的是什么,又在努力把哪件事做得更好?* 这个问题的答案把机器学习分成三大类,你听说过的几乎每个系统都属于其中之一(或把几类拼在一起)。

这三大类是监督学习无监督学习强化学习。最干净的区分办法,是问机器得到的是哪种反馈。监督学习对每个例子都拿到一个*正确答案*;无监督学习*完全没有答案*——只有原始数据;强化学习则为自己行动的后果*偶尔*拿到奖励。仅这一个区别——反馈长什么样——就承担了绝大部分判断工作。

监督学习:从有答案的例子里学

监督学习是最常见、也最容易想象的一类。你给机器许多例子,每个例子都附带正确答案。每个例子有特征(它能看到的输入)和一个标签(你希望它给出的答案)。机器的全部工作,就是找到一个模型——一条规则——把特征映射到标签,好到足以应付它从没见过的例子。

以垃圾邮件过滤器为例。你收集成千上万封邮件,每封都已由人标好是*垃圾*还是*非垃圾*。特征可能是出现了哪些词、谁发的、含多少链接;标签就是「垃圾/非垃圾」这个判定。过滤器研究这些有答案的例子,学出一条规则,再把规则用到全新的邮件上。我们期待的是[[generalization|泛化]]——从旧邮件学到的规律,对明天的邮件依然管用。

监督学习撑起了实用 AI 中的一大块:识别欺诈、识别手写、在扫描影像上标出肿瘤、预测明日的需求。它最大的长处同时也是它最大的代价——它需要有标签的答案,而这些答案得有人(往往是真人)去造出来。一个只是把例子*背下来*、却没学到真正规律的模型,叫做[[overfitting|过拟合]];它在学过的数据上看着很聪明,一碰到新东西就崩。

# supervised: every example carries its own answer
train on:
  ("win a free prize, click here", spam)
  ("lunch at noon?",            not_spam)
  ("verify your account now!!!", spam)

learn rule:  features  ->  label

new email -> rule -> guess: spam / not_spam
监督学习的样子:一对对的(输入,正确答案),再为新输入学出一条规则。

无监督学习:没有答案也能找出结构

无监督学习干脆把答案表整个拿掉。你交给机器一堆没有标签的数据,问一个更柔和的问题:*这里头藏着什么结构?* 没有「正确」的输出可对照——只有待浮现的规律。这让它不如监督学习那样齐整,却正好契合一种常见情形:你有大量数据,却几乎没有标签。

最经典的例子是给顾客分群。一家店有每个人买了什么的记录,但没人把他们归成「类型」。像 k 均值 这样的聚类方法,会审视整个数据集,把行为相似的顾客捆在一起——这边是淘便宜的,那边是周末囤货的——而它从没被告知这些群体的存在。是机器*提出*了这些分组;之后由人来看,再判断它们是否真有意义。

除了聚类,无监督的思路还驱动着推荐、异常检测(一笔与众不同的交易可能是欺诈),以及把数据压缩到只剩精华。这里有个值得点明的麻烦:没有答案表,你就没法简单地衡量「准确率」。要判断发现的结构是否*有用*,得靠人的眼睛和领域常识——机器能分组,却没法告诉你这些组有没有价值。

强化学习:靠试错与奖励来学

强化学习最不像课堂,最像训狗或学骑车。这里没有一摞有答案的例子。取而代之的是:一个智能体在环境中行动,时不时收到一个奖励——一个数字,告诉它*刚才做得不错*或*刚才做砸了*。在一次次尝试中,它调整自己的策略(选择行动的方式),以求长远拿到更多奖励。

最有名的例子是下棋下棋。要学会围棋,系统会在一个「行动—观察」循环里下海量对局:它落子,棋盘随之变化,直到最末才知道自己是赢是输。就凭这点稀薄又滞后的信号,它一点点摸索出高水平的下法。DeepMind 的 AlphaGo 大体就是这样达到了击败人类顶尖棋手的水平——这是货真价实的里程碑,不是炒作。

强化学习在这种地方大放异彩:决策随时间一步步展开、反馈又很稀少——游戏、机器人控制、调度数据中心制冷、微调推荐。它也是三者中最「饿」、最难伺候的——可能需要上百万次尝试,这在模拟器里没问题,在真实世界里却很危险;而一个设计糟糕的奖励,会教出恰恰相反的本领。「让那个数字往上走」并不等于「做我真正想要的事」。

界线模糊之处——以及学习仍然做不到的事

在真实系统里,这三大类自由地混搭。今天聊天机器人背后的大语言模型,先是靠在海量文本里预测下一个词来训练——一种*自监督*的巧招,从原始数据本身里变出标签——之后再用「来自人类偏好的强化学习」来打磨。所以当你遇到一个光鲜的现代 AI,它通常不是某一种纯方法,而是把好几种叠在一起的配方。这三大类是字母表,不是整部文学。

也要留意这三者的共同点——以及它们的尽头。它们无一例外都是从过去学习,并赌未来与过去相像;只要世界变得够远,再聪明的模型也会出错。它们没有一个是人类意义上「理解」的;垃圾邮件过滤器根本不知道电子邮件*是什么*。而不论一个系统属于哪一类,它依旧是[[narrow-ai|窄 AI]]——在受训的那一小片上出类拔萃,出了那片就一片空白。AlphaGo 能碾压围棋冠军,却连跳棋的规则都说不上来。

请抓住核心观念,而不是那几个名词:当一台机器的行为因经验而变好,它就在学习;而那*种类*的经验——有答案的例子、无标签的数据、还是有奖励的行动——决定了它属于哪一类。带着这个问题走进下一篇指南,我们将正面端详今天的 AI 究竟能做什么、不能做什么,把真实的进展与那些喘着粗气的承诺区分开来。