微调与 RLHF：让模型变得有用

原始模型是模仿者，不是助手

到预训练结束时，一个大语言模型已经读过浩如烟海的文本，并学会了恰好一件事：预测下一个词元。这单一技能令人惊叹——它一路上吸收了语法、事实、代码和推理模式。但它真正优化的技能是*模仿*。把「我该怎么烤面包？」这句话交给原始模型，它很可能接着写「我该怎么做意面？我该怎么烤鸡？」——因为在开放网络上，问题后面常常跟着*更多问题*，而不是答案。

这正是本指南余下部分要弥合的鸿沟。预训练模型其实*已经知道*怎么烤面包——知识就藏在它的权重里。它缺的是被问到时就回答的*习惯*，是诚实而非听起来合理的习惯，是拒绝有害请求的习惯。把一个接词模仿者变成可用的助手，靠的不是灌入更多事实，而是重塑它的行为，让它已有的知识在你需要时流出来。

指令微调：教会「回答」这个习惯

第一个、也是最简单的修法是指令微调——一种微调：我们继续训练预训练模型，但这次用的是一批精心整理、由人类撰写或审核的（指令 → 理想回应）配对。「总结这篇文章：……」配上一段简洁的摘要。「翻译成法语：……」配上译文。几万到几百万个这样的样例，涵盖你希望模型处理的每一类任务。

从机制上看，这里没有任何新奇之处。用的还是预训练里那套预测下一个词元的目标和那套梯度下降——只不过数据从原始网络换成了一小批精挑细选的样例。由于模型早已学会了语言和事实，相对少量的这类样例就足以把它的默认行为从「把文字接着写下去」翻转为「听从指令」。这是迁移学习的一个生动例子：绝大部分重活在预训练里已经干完，指令微调只是给它重新指了个方向。

单凭指令微调，就已经能造出感觉像助手的东西：它会回答问题、遵循格式、听命切换任务。但它有天花板。靠示范来教，人就得*写出*理想答案——而对许多问题并不存在唯一的理想答案，只有从「更好」到「更差」的一个谱系。该多礼貌？多详细？多谨慎？这种含糊的偏好很难直接示范。这个局限，正是下一步要解决的。

RLHF：从偏好而非完美答案中学习

RLHF（基于人类反馈的强化学习）背后的关键洞见是：人不擅长*写出*完美答案，却非常擅长*比较*两个答案。于是我们不再要求人类撰写理想回应，而是让模型生成两个候选答案，只问人类一句「哪个更好？」这些判断便宜、快捷，还能捕捉到那些没有任何单一示范能传达的模糊偏好——语气、有用性、安全性。

这些比较被用来训练第二个网络——奖励模型，它的任务是给任意一段回应打出一个数字，预测人类会有多喜欢它。接着我们用强化学习去推动语言模型，使其偏向奖励模型评分高的回应。模型成了智能体，它的回复是动作，奖励模型给出的分数就是奖励——这里的标准算法是 PPO。实际上，奖励模型是一个学出来的、自动化的人类评分者替身，于是语言模型可以练习上百万次，而无需每一轮都有真人参与。

pretrain  ->  instruction tune  ->  collect A/B preferences
                                          |
                                   train REWARD model
                                          |
              RL: model proposes answer  -> reward scores it
                  -> nudge model toward higher-scored replies

经典的 RLHF 流水线：基础模型分阶段被打磨，强化学习循环中由一个学出来的奖励模型代替人类判断。

DPO：去掉强化学习，达成同一目标

RLHF 有效，但很繁琐：你要训练一个单独的奖励模型，再在它之上跑一个不稳定的强化学习循环，同时还要兼顾好几个活动部件。直接偏好优化（DPO）提出了一个尖锐的问题——如果我们手上只有「答案 A 优于答案 B」，真的还需要中间那个奖励模型和那套强化学习机器吗？

DPO 的回答是「不需要」。它用一个巧妙的数学变换，把奖励模型直接折叠进损失函数，于是你可以用普通的、类似监督学习的梯度下降在偏好配对上训练——模型只需学着提高被偏好答案的概率、降低被拒绝答案的概率。没有单独的奖励网络，也没有强化学习循环。对许多团队来说，DPO 如今是首选的第一手段，因为它更简单、更稳定、运行成本更低，同时能达到与精调过的 RLHF 流水线相近的质量。

不要把 DPO 理解成「RLHF 错了」。两者追求的是*同一个*目标——把模型扳向人类的偏好——并且都依赖完全相同的宝贵资源：人类偏好数据。它们的差别在于机器，而非精神。诚实的总结是：在何种条件下哪种方法胜出，这个领域仍在积极摸索，真实系统往往混用多种技术，而不是只挑一种。

对齐是在塑造行为——而非增加智力

退一步，看看这三种技术的共同点。它们都没有教给模型关于世界的新事实；预训练之后，知识就已经在那里了。它们做的是*塑造行为*——让模型去回答而非闲扯，诚实而非仅仅听起来合理，拒绝有害请求，并采用人们觉得有用的语气。这种塑造正是人们所说的对齐：让模型的行为贴合其制造者和用户真正的意图。

这就是为什么一种常见看法把图景弄反了。微调和 RLHF 并不会在很大程度上让模型*更聪明*——它们让模型*更好用*。一个友善、对齐良好的模型，和一个生硬的原始模型，可能共享几乎相同的底层能力；你感受到的差别主要是行为。反过来，对齐也不会随规模自动出现。更大的模型是更强的模仿者，但它并不会自动变得更诚实或更听话——这些品质每一次都得被刻意训练进去。

现在模型既有知识又乐于助人，生成式 AI 故事还剩最后一块。我们已经塑造了模型*倾向于说什么*；下一篇指南转向*如何*把这些被塑造过的概率变成真正的文字，靠的是温度、top-p 等采样选择。预训练得来的大脑、对齐得来的礼貌，再加上采样赋予的嗓音，合起来才是你打开聊天窗口时所遇见的那个东西。