思维链与推理

改变了提示方式的那个小窍门

你已经知道，大语言模型预测的是下一个词元，而合适的提示能通过上下文学习引导它，无需改动任何一个权重。思维链提示是这一思路最重要的精炼。你不再直接索要答案，而是请模型先写出中间步骤、最后才下结论。那句开创一切的话——「让我们一步一步想」——确实能提升多步问题上的准确率。

为什么用文字给答案「铺垫」会有帮助？模型每生成一个词元，可用的计算量是固定的。直接索要一个数字，等于强行把全部推理压进一次前向传播。当模型把步骤写出来，每个新词元都成了它可以回读的草稿纸，于是一道难题被摊开成许多小而廉价的计算，而不是一次不可能完成的计算。这串推理文字，名副其实地，就是模型在一张它能重读的纸上把思路想出声来。

一步一步究竟在什么时候有用

老实说，规律是：当答案需要把好几块拼起来时，思维链有用；当不需要时，它毫无作用——甚至略有害处。算术应用题、多跳问题、必须满足多个约束的代码、逻辑谜题：这些都会因把过程展开而受益。一条推文的情感、一个你要么知道要么不知道的事实、一次简单查找：这些毫无收获，多出来的文字只会白白消耗词元与时延。

还有一个值得说清楚的规模效应。可靠的逐步推理主要出现在较大的模型上；让一个很小的模型去推理，它往往只是生成听起来煞有介事的胡话，然后给个错误答案。这正是人们常笼统称作涌现能力的那类现象——但请谨慎对待这个标签。所谓的「突跃」，很大程度上是严苛的「全对或全错」评分造成的假象；换用更平滑的指标，收益往往看起来是渐进的，而非神奇的。实用结论不变：别指望思维链能拯救一个小模型。

一个简单的配套技巧是自洽性：不只走一条链，而是带一点随机性采样出好几条，再取多数链一致认同的那个答案。多条不同的推理路径都汇向同一终点，比一条侥幸路径更可信。这要花更多算力，但对高风险问题，它是你能买到的最便宜的可靠性提升之一。

推理模型：把习惯训进去

在普通模型里，你得用提示把步骤哄出来。新一代推理模型则把这个习惯训进了模型本身：它们在作答前会自动产出一长串内部链条——往往对你隐藏，并作为单独的「思考」词元计费。它们通常用强化学习做后训练，奖励那些能导向正确、可核对答案（数学、代码、证明）的推理轨迹，远不止于主要调教人类偏好风格的普通RLHF。

这是一次真实的转变，而非单纯炒作：在高难数学与竞赛编程上，收益巨大且可复现。但这份可靠性是用金钱与时间换来的。推理模型可能在它第一个可见的词出现之前，就花掉成千上万个隐藏词元，因此更慢、更贵。让工具匹配任务——棘手的证明或难缠的重构用推理模型，起草邮件或给工单分类则用快速的标准模型。

你看到的推理，并不是真正发生的推理

这是整篇导读里最重要的告诫。思维链是被生成出来的文字，其产生方式和其他每一个词元别无二致。它并不是真正得出答案那段计算的逐字记录。模型可以一边写着部分错误的推理，一边给出正确答案；而更令人不安的是，它能写出一条干净、自信的链条，去为它出于完全不同的原因得到的答案找补理由。那段解释，有时只是事后编出来的故事。

这一点之所以要紧，是因为一条冗长、表达流畅的链条会显得很权威，而这种感觉恰恰就是陷阱。步骤的流畅，并不为结论的真实背书。一个推理得理直气壮的幻觉——编造的引用、貌似可信却根本不存在的 API、一个由三步之前那个错误前提推出来的数字——依然是幻觉，只不过穿戴整齐去面试罢了。

Q: A shop had 23 apples. It used 20 for lunch and bought 6 more.
   How many apples remain?

Thinking:
  start = 23
  after lunch = 23 - 20 = 3
  after buying = 3 + 6 = 9
Answer: 9        <- correct, and the steps are checkable

(Now imagine step 1 read "start = 32". Every later step would
 look just as tidy, and the final answer would be wrong.)

看得见的步骤是一块可核对的草稿——但前提是你真的去核对第一个前提，而不只是欣赏它之后那些算术。

在实践中用好它

推理只是你提示工程工具箱里的一种技巧，它能和你已经认识的其他技巧组合使用。把它和少样本示例搭配，用示例展示你想要的推理风格；再用一段清晰的系统提示来设定角色与规则、给它定锚。同时留意你的上下文窗口：长链条加上几个完整范例会飞快吃掉词元，而这在每一次调用上都是实打实的金钱与时延成本。

先问自己：这个任务真的有多个步骤吗？如果只是一次查找或一句话的判断，就跳过思维链——它只会增加成本。
如果确属多步，那就要么调用推理模型，要么给标准模型加一句朴素的「作答前请一步一步推理」。
对高风险任务，采样多条链并取多数答案（自洽性）；它们彼此分歧，本身就是一个有用的警报。
用事实依据或某个工具去核验结论——绝不要仅仅因为步骤读起来通顺就信它。

退一步看，主线很清晰：在恰当的时刻投入更多计算，能换来更可靠的推理——这呼应了苦涩的教训，也呼应了你将在前沿台阶遇到的规模定律。但计算不等于理解。下一篇导读自然地迈出下一步：当模型缺少某个事实时，别再指望它能凭推理到达，而是通过检索，直接把出处递到它手上。