一条没掏钱之前就能画出来的曲线
走到这级阶梯,你已经知道一个 Transformer 是怎么搭起来的,也知道一个 大语言模型 是怎么训练的:预测下一个词元,量出 损失,再沿梯度下降。接下来最自然的问题,也正是推动整个前沿的那一个——如果你干脆把所有东西都做大,会怎样?2020 年前后,研究者发现了一件真正令人惊讶的事。当你把模型规模、数据和算力一起增大时,训练损失并不会随机地游移或停滞;它会在双对数坐标图上沿着一条平滑、整洁的直线下降——一条幂律。这就是 缩放定律的核心。
一条直线为什么是件大事?因为它让你能够预报。在少数几次小而便宜的训练上把曲线拟合出来,再外推出去,你就能在掏出数百万美元、花掉数周 GPU 时间之前,大致预测一个大得多的模型,损失会落到多低。这把造模型从一场赌博,变成了更接近工程的事情。说白了,这也正是这个领域如此重押规模的原因:当一条曲线跨越好几个数量级都仍然成立时,最显而易见的做法,就是顺着它骑上去。
三个旋钮,以及拧它们的正确方式
缩放有三样配料:参数的数量(模型规模)、数据集的大小,以及花掉的总算力。最朴素的直觉——在「万亿参数模型」这类标题里喊得最响的那种——以为参数量才是奖杯。并非如此。更深的一课在 2022 年随《Chinchilla》的结果到来:在固定的算力预算下,许多早期模型都过大而欠训。它们参数太多,喂的数据却太少。把两者匹配好,一个用更多词元训练的较小模型,会击败一个被数据饿着的更大模型。
所以真正的较量,是算力最优的分配:在你负担得起的预算下,应该如何在「把模型做大」和「给它看更多数据」之间切分?这直接连回前几级阶梯的概念——容量、过拟合与泛化。模型太小,捕捉不了那些模式;模型太大却只用了太少数据训练,就是在浪费它的容量。缩放定律给出了那个甜点位置的粗略配方,而它揭示出的那种「数据饥渴」,正是各团队如今执着于收集和清洗海量、多样的 预训练语料的原因。
loss(N, D) ≈ E + A / N^a + B / D^b N = parameters D = data (tokens) E = irreducible floor ↑ raise either one and loss falls — but along a curve, not a cliff
留意那个公式里的 E——一个不可消除的下限。总有一部分损失你永远赶不走,因为语言里本就含有真实的随机性:哪怕一个完美的模型,也无从知道你下一个会选哪个词。缩放缩小的是那段*可消除的*差距,而不是那个下限。而且缩放既不免费也非无限:它要烧掉巨量的金钱、能源和数据,并且确有迹象表明,随着高质量训练文本告急,最容易得来的收益正在放缓。
涌现能力——以及为什么要小心地读它
接下来这个转折,让缩放显得几乎像魔法。损失曲线是平滑的,可某些*实用技能*似乎并不是平滑地到来。在诸如多步算术、或遵循一条刁钻指令这类任务上,小模型几乎得零分——然后,过了某个规模,它们突然就开始答对了。这被称为 涌现能力:仿佛在模型跨过一道门槛后才「咔」地开启的本领,像水在某个温度上「翻」成冰、而不是慢慢变稠。它看上去不太像打磨,倒更像一次相变。
这个想法令人振奋——也有点令人不安——因为它暗示:规模能解锁你没训练过、也预测不到的、真正*全新*的技能。它也成了「为何要造越来越大的模型」的一大招牌论据。这些惊喜里有许多,都和你已经见过的技术结伴出现:上下文学习(仅凭提示里的几个范例就学会一项任务,无需更新权重)和 思维链提示(让模型一步步推理),在大模型里都比在小模型里管用得多。
现在说说诚实的那一面,因为这正是这个领域自我纠正之处。2023 年一项有影响的分析指出:所谓「涌现」中有许多,其实是*我们度量方式*造成的假象。把一项任务按「全对才算分」来评——一个答案每一位都正好对,你才给分——改善看上去就像突然一跃。把同样那些输出改按给部分分来评(对了几位),你会发现较小的模型一路其实都在稳步改善:那是平滑的上升,而非一个开关。所以有些涌现能力是真正的惊喜,另一些则是一个严苛、不连续的度量造出的海市蜃楼。
苦涩的教训
从任何单个模型退后一步,你会发现一个已经重复了七十年的模式。它由研究者理查德·萨顿在 2019 年一篇简短的随笔里命名为 「苦涩的教训」:那些单纯*依靠更多算力*的通用方法——你给它越多数据和处理能力就越好的学习与搜索——最终会击败那些建立在精巧、由人手工打造的知识之上的方法。之所以叫*苦涩*,是因为它刺痛人:研究者满怀珍爱、亲手工程进系统里的那些优雅洞见,一再被仅靠「上规模」的蛮力方法碾平。
历史为它背书,而且你在这级阶梯上已经亲历过其中几段。在国际象棋上,数十年来对特级大师棋略的编码,败给了搜索海量局面的 引擎。在围棋上,手工调校的启发式规则,败给了从海量 自我对弈中学习的 AlphaGo 及其后继者。在视觉与翻译上,那些煞费苦心的 手工特征,一次又一次被用更多算力、更多数据训练的通用 深度网络反超。每一次,本能都是把「我们所知」内建进去;每一次,持久的胜利却来自那些「自己去把它学会」的方法。
把它当作一个发人深省的论点,而非福音——并留意它的局限。这教训*并不是*说人类知识一文不值;它说的是:别以「会给系统的学习能力封顶」的方式把知识写死。那些帮助模型去学的结构——Transformer 本身的设计、训练的配方——本身就是人类的贡献。而缩放有实打实的局限:成本、能源、环境足迹,以及有限的好数据供给。最好把它读作一种强烈、来之不易的偏向——偏向通用、可扩展的方法,以及一记反对过度工程的警钟——而不是一条「算力越多就总能赢」的定律。
这些告诉了我们什么关于未来的事——又没告诉我们什么
把这三个想法拼到一起,你就握住了过去十年的引擎:缩放定律让进步变得*可预报*,那些看似涌现的能力让它显得*没有上限*,而苦涩的教训让*规模本身*成了策略。这是一个真实而有力的故事。它解释了为什么单一一个在规模上预训练的 基础模型,能同样地被改造去做翻译、写代码和当家教——也解释了为什么后面几级阶梯,会谈到把这样的模型变成会用工具的智能体。
但要守住底线:缩放*没有*证明的东西。那条平滑曲线追踪的是下一个词元的损失,它和我们真正在意的、乱糟糟的真实世界能力并不是一回事——后者爬升得参差得多,而且低损失既不能消除 幻觉,也不保证推理稳健。更要紧的是,缩放定律里没有任何东西,能证明「堆算力」就是通往通用智能的那条路。它只是在有限区间内的一条观测趋势,倚靠着有限的数据和能源供给。把它笔直外推到人类水平的 AI,是一个怀着希望的猜测,而不是一个结论。
- 把一条缩放定律曲线当作在已测试区间内的预报——对规划有用,但不是对下一个数量级的承诺。
- 当一项新能力看起来「涌现」时,先查度量再相信那道悬崖——问问给部分分会不会把它抹平成一道缓坡。
- 把苦涩的教训读作一种偏向通用、可扩展方法的倾向——并记住规模要花掉金钱、能源和有限的数据。