缩放定律与涌现能力

一条没掏钱之前就能画出来的曲线

走到这级阶梯，你已经知道一个 Transformer 是怎么搭起来的，也知道一个大语言模型是怎么训练的：预测下一个词元，量出损失，再沿梯度下降。接下来最自然的问题，也正是推动整个前沿的那一个——如果你干脆把所有东西都做大，会怎样？2020 年前后，研究者发现了一件真正令人惊讶的事。当你把模型规模、数据和算力一起增大时，训练损失并不会随机地游移或停滞；它会在双对数坐标图上沿着一条平滑、整洁的直线下降——一条幂律。这就是缩放定律的核心。

一条直线为什么是件大事？因为它让你能够预报。在少数几次小而便宜的训练上把曲线拟合出来，再外推出去，你就能在掏出数百万美元、花掉数周 GPU 时间之前，大致预测一个大得多的模型，损失会落到多低。这把造模型从一场赌博，变成了更接近工程的事情。说白了，这也正是这个领域如此重押规模的原因：当一条曲线跨越好几个数量级都仍然成立时，最显而易见的做法，就是顺着它骑上去。

三个旋钮，以及拧它们的正确方式

缩放有三样配料：参数的数量（模型规模）、数据集的大小，以及花掉的总算力。最朴素的直觉——在「万亿参数模型」这类标题里喊得最响的那种——以为参数量才是奖杯。并非如此。更深的一课在 2022 年随《Chinchilla》的结果到来：在固定的算力预算下，许多早期模型都过大而欠训。它们参数太多，喂的数据却太少。把两者匹配好，一个用更多词元训练的较小模型，会击败一个被数据饿着的更大模型。

所以真正的较量，是算力最优的分配：在你负担得起的预算下，应该如何在「把模型做大」和「给它看更多数据」之间切分？这直接连回前几级阶梯的概念——容量、过拟合与泛化。模型太小，捕捉不了那些模式；模型太大却只用了太少数据训练，就是在浪费它的容量。缩放定律给出了那个甜点位置的粗略配方，而它揭示出的那种「数据饥渴」，正是各团队如今执着于收集和清洗海量、多样的预训练语料的原因。

loss(N, D)  ≈  E  +  A / N^a  +  B / D^b

   N = parameters    D = data (tokens)    E = irreducible floor
   ↑ raise either one and loss falls — but along a curve, not a cliff

漫画版的缩放定律：随着参数 N 和数据 D 增长，损失平滑地下降，趋向一个不可消除的下限 E。

留意那个公式里的 E——一个不可消除的下限。总有一部分损失你永远赶不走，因为语言里本就含有真实的随机性：哪怕一个完美的模型，也无从知道你下一个会选哪个词。缩放缩小的是那段*可消除的*差距，而不是那个下限。而且缩放既不免费也非无限：它要烧掉巨量的金钱、能源和数据，并且确有迹象表明，随着高质量训练文本告急，最容易得来的收益正在放缓。

涌现能力——以及为什么要小心地读它

接下来这个转折，让缩放显得几乎像魔法。损失曲线是平滑的，可某些*实用技能*似乎并不是平滑地到来。在诸如多步算术、或遵循一条刁钻指令这类任务上，小模型几乎得零分——然后，过了某个规模，它们突然就开始答对了。这被称为涌现能力：仿佛在模型跨过一道门槛后才「咔」地开启的本领，像水在某个温度上「翻」成冰、而不是慢慢变稠。它看上去不太像打磨，倒更像一次相变。

这个想法令人振奋——也有点令人不安——因为它暗示：规模能解锁你没训练过、也预测不到的、真正*全新*的技能。它也成了「为何要造越来越大的模型」的一大招牌论据。这些惊喜里有许多，都和你已经见过的技术结伴出现：上下文学习（仅凭提示里的几个范例就学会一项任务，无需更新权重）和思维链提示（让模型一步步推理），在大模型里都比在小模型里管用得多。

现在说说诚实的那一面，因为这正是这个领域自我纠正之处。2023 年一项有影响的分析指出：所谓「涌现」中有许多，其实是*我们度量方式*造成的假象。把一项任务按「全对才算分」来评——一个答案每一位都正好对，你才给分——改善看上去就像突然一跃。把同样那些输出改按给部分分来评（对了几位），你会发现较小的模型一路其实都在稳步改善：那是平滑的上升，而非一个开关。所以有些涌现能力是真正的惊喜，另一些则是一个严苛、不连续的度量造出的海市蜃楼。

苦涩的教训

从任何单个模型退后一步，你会发现一个已经重复了七十年的模式。它由研究者理查德·萨顿在 2019 年一篇简短的随笔里命名为「苦涩的教训」：那些单纯*依靠更多算力*的通用方法——你给它越多数据和处理能力就越好的学习与搜索——最终会击败那些建立在精巧、由人手工打造的知识之上的方法。之所以叫*苦涩*，是因为它刺痛人：研究者满怀珍爱、亲手工程进系统里的那些优雅洞见，一再被仅靠「上规模」的蛮力方法碾平。

历史为它背书，而且你在这级阶梯上已经亲历过其中几段。在国际象棋上，数十年来对特级大师棋略的编码，败给了搜索海量局面的引擎。在围棋上，手工调校的启发式规则，败给了从海量自我对弈中学习的 AlphaGo 及其后继者。在视觉与翻译上，那些煞费苦心的手工特征，一次又一次被用更多算力、更多数据训练的通用深度网络反超。每一次，本能都是把「我们所知」内建进去；每一次，持久的胜利却来自那些「自己去把它学会」的方法。

把它当作一个发人深省的论点，而非福音——并留意它的局限。这教训*并不是*说人类知识一文不值；它说的是：别以「会给系统的学习能力封顶」的方式把知识写死。那些帮助模型去学的结构——Transformer 本身的设计、训练的配方——本身就是人类的贡献。而缩放有实打实的局限：成本、能源、环境足迹，以及有限的好数据供给。最好把它读作一种强烈、来之不易的偏向——偏向通用、可扩展的方法，以及一记反对过度工程的警钟——而不是一条「算力越多就总能赢」的定律。

这些告诉了我们什么关于未来的事——又没告诉我们什么

把这三个想法拼到一起，你就握住了过去十年的引擎：缩放定律让进步变得*可预报*，那些看似涌现的能力让它显得*没有上限*，而苦涩的教训让*规模本身*成了策略。这是一个真实而有力的故事。它解释了为什么单一一个在规模上预训练的基础模型，能同样地被改造去做翻译、写代码和当家教——也解释了为什么后面几级阶梯，会谈到把这样的模型变成会用工具的智能体。

但要守住底线：缩放*没有*证明的东西。那条平滑曲线追踪的是下一个词元的损失，它和我们真正在意的、乱糟糟的真实世界能力并不是一回事——后者爬升得参差得多，而且低损失既不能消除幻觉，也不保证推理稳健。更要紧的是，缩放定律里没有任何东西，能证明「堆算力」就是通往通用智能的那条路。它只是在有限区间内的一条观测趋势，倚靠着有限的数据和能源供给。把它笔直外推到人类水平的 AI，是一个怀着希望的猜测，而不是一个结论。

把一条缩放定律曲线当作在已测试区间内的预报——对规划有用，但不是对下一个数量级的承诺。
当一项新能力看起来「涌现」时，先查度量再相信那道悬崖——问问给部分分会不会把它抹平成一道缓坡。
把苦涩的教训读作一种偏向通用、可扩展方法的倾向——并记住规模要花掉金钱、能源和有限的数据。