原始模型是模仿者,不是助手
到预训练结束时,一个大语言模型已经读过浩如烟海的文本,并学会了恰好一件事:预测下一个词元。这单一技能令人惊叹——它一路上吸收了语法、事实、代码和推理模式。但它真正优化的技能是*模仿*。把「我该怎么烤面包?」这句话交给原始模型,它很可能接着写「我该怎么做意面?我该怎么烤鸡?」——因为在开放网络上,问题后面常常跟着*更多问题*,而不是答案。
这正是本指南余下部分要弥合的鸿沟。预训练模型其实*已经知道*怎么烤面包——知识就藏在它的权重里。它缺的是被问到时就回答的*习惯*,是诚实而非听起来合理的习惯,是拒绝有害请求的习惯。把一个接词模仿者变成可用的助手,靠的不是灌入更多事实,而是重塑它的行为,让它已有的知识在你需要时流出来。
指令微调:教会「回答」这个习惯
第一个、也是最简单的修法是指令微调——一种微调:我们继续训练预训练模型,但这次用的是一批精心整理、由人类撰写或审核的(指令 → 理想回应)配对。「总结这篇文章:……」配上一段简洁的摘要。「翻译成法语:……」配上译文。几万到几百万个这样的样例,涵盖你希望模型处理的每一类任务。
从机制上看,这里没有任何新奇之处。用的还是预训练里那套预测下一个词元的目标和那套梯度下降——只不过数据从原始网络换成了一小批精挑细选的样例。由于模型早已学会了语言和事实,相对少量的这类样例就足以把它的默认行为从「把文字接着写下去」翻转为「听从指令」。这是迁移学习的一个生动例子:绝大部分重活在预训练里已经干完,指令微调只是给它重新指了个方向。
单凭指令微调,就已经能造出感觉像助手的东西:它会回答问题、遵循格式、听命切换任务。但它有天花板。靠示范来教,人就得*写出*理想答案——而对许多问题并不存在唯一的理想答案,只有从「更好」到「更差」的一个谱系。该多礼貌?多详细?多谨慎?这种含糊的偏好很难直接示范。这个局限,正是下一步要解决的。
RLHF:从偏好而非完美答案中学习
RLHF(基于人类反馈的强化学习)背后的关键洞见是:人不擅长*写出*完美答案,却非常擅长*比较*两个答案。于是我们不再要求人类撰写理想回应,而是让模型生成两个候选答案,只问人类一句「哪个更好?」这些判断便宜、快捷,还能捕捉到那些没有任何单一示范能传达的模糊偏好——语气、有用性、安全性。
这些比较被用来训练第二个网络——奖励模型,它的任务是给任意一段回应打出一个数字,预测人类会有多喜欢它。接着我们用强化学习去推动语言模型,使其偏向奖励模型评分高的回应。模型成了智能体,它的回复是动作,奖励模型给出的分数就是奖励——这里的标准算法是 PPO。实际上,奖励模型是一个学出来的、自动化的人类评分者替身,于是语言模型可以练习上百万次,而无需每一轮都有真人参与。
pretrain -> instruction tune -> collect A/B preferences
|
train REWARD model
|
RL: model proposes answer -> reward scores it
-> nudge model toward higher-scored repliesDPO:去掉强化学习,达成同一目标
RLHF 有效,但很繁琐:你要训练一个单独的奖励模型,再在它之上跑一个不稳定的强化学习循环,同时还要兼顾好几个活动部件。直接偏好优化(DPO)提出了一个尖锐的问题——如果我们手上只有「答案 A 优于答案 B」,真的还需要中间那个奖励模型和那套强化学习机器吗?
DPO 的回答是「不需要」。它用一个巧妙的数学变换,把奖励模型直接折叠进损失函数,于是你可以用普通的、类似监督学习的梯度下降在偏好配对上训练——模型只需学着提高被偏好答案的概率、降低被拒绝答案的概率。没有单独的奖励网络,也没有强化学习循环。对许多团队来说,DPO 如今是首选的第一手段,因为它更简单、更稳定、运行成本更低,同时能达到与精调过的 RLHF 流水线相近的质量。
不要把 DPO 理解成「RLHF 错了」。两者追求的是*同一个*目标——把模型扳向人类的偏好——并且都依赖完全相同的宝贵资源:人类偏好数据。它们的差别在于机器,而非精神。诚实的总结是:在何种条件下哪种方法胜出,这个领域仍在积极摸索,真实系统往往混用多种技术,而不是只挑一种。
对齐是在塑造行为——而非增加智力
退一步,看看这三种技术的共同点。它们都没有教给模型关于世界的新事实;预训练之后,知识就已经在那里了。它们做的是*塑造行为*——让模型去回答而非闲扯,诚实而非仅仅听起来合理,拒绝有害请求,并采用人们觉得有用的语气。这种塑造正是人们所说的对齐:让模型的行为贴合其制造者和用户真正的意图。
这就是为什么一种常见看法把图景弄反了。微调和 RLHF 并不会在很大程度上让模型*更聪明*——它们让模型*更好用*。一个友善、对齐良好的模型,和一个生硬的原始模型,可能共享几乎相同的底层能力;你感受到的差别主要是行为。反过来,对齐也不会随规模自动出现。更大的模型是更强的模仿者,但它并不会自动变得更诚实或更听话——这些品质每一次都得被刻意训练进去。
现在模型既有知识又乐于助人,生成式 AI 故事还剩最后一块。我们已经塑造了模型*倾向于说什么*;下一篇指南转向*如何*把这些被塑造过的概率变成真正的文字,靠的是温度、top-p 等采样选择。预训练得来的大脑、对齐得来的礼貌,再加上采样赋予的嗓音,合起来才是你打开聊天窗口时所遇见的那个东西。