改变了提示方式的那个小窍门
你已经知道,大语言模型预测的是下一个词元,而合适的提示能通过上下文学习引导它,无需改动任何一个权重。思维链提示是这一思路最重要的精炼。你不再直接索要答案,而是请模型先写出中间步骤、最后才下结论。那句开创一切的话——「让我们一步一步想」——确实能提升多步问题上的准确率。
为什么用文字给答案「铺垫」会有帮助?模型每生成一个词元,可用的计算量是固定的。直接索要一个数字,等于强行把全部推理压进一次前向传播。当模型把步骤写出来,每个新词元都成了它可以回读的草稿纸,于是一道难题被摊开成许多小而廉价的计算,而不是一次不可能完成的计算。这串推理文字,名副其实地,就是模型在一张它能重读的纸上把思路想出声来。
一步一步究竟在什么时候有用
老实说,规律是:当答案需要把好几块拼起来时,思维链有用;当不需要时,它毫无作用——甚至略有害处。算术应用题、多跳问题、必须满足多个约束的代码、逻辑谜题:这些都会因把过程展开而受益。一条推文的情感、一个你要么知道要么不知道的事实、一次简单查找:这些毫无收获,多出来的文字只会白白消耗词元与时延。
还有一个值得说清楚的规模效应。可靠的逐步推理主要出现在较大的模型上;让一个很小的模型去推理,它往往只是生成听起来煞有介事的胡话,然后给个错误答案。这正是人们常笼统称作涌现能力的那类现象——但请谨慎对待这个标签。所谓的「突跃」,很大程度上是严苛的「全对或全错」评分造成的假象;换用更平滑的指标,收益往往看起来是渐进的,而非神奇的。实用结论不变:别指望思维链能拯救一个小模型。
一个简单的配套技巧是自洽性:不只走一条链,而是带一点随机性采样出好几条,再取多数链一致认同的那个答案。多条不同的推理路径都汇向同一终点,比一条侥幸路径更可信。这要花更多算力,但对高风险问题,它是你能买到的最便宜的可靠性提升之一。
推理模型:把习惯训进去
在普通模型里,你得用提示把步骤哄出来。新一代推理模型则把这个习惯训进了模型本身:它们在作答前会自动产出一长串内部链条——往往对你隐藏,并作为单独的「思考」词元计费。它们通常用强化学习做后训练,奖励那些能导向正确、可核对答案(数学、代码、证明)的推理轨迹,远不止于主要调教人类偏好风格的普通RLHF。
这是一次真实的转变,而非单纯炒作:在高难数学与竞赛编程上,收益巨大且可复现。但这份可靠性是用金钱与时间换来的。推理模型可能在它第一个可见的词出现之前,就花掉成千上万个隐藏词元,因此更慢、更贵。让工具匹配任务——棘手的证明或难缠的重构用推理模型,起草邮件或给工单分类则用快速的标准模型。
你看到的推理,并不是真正发生的推理
这是整篇导读里最重要的告诫。思维链是被生成出来的文字,其产生方式和其他每一个词元别无二致。它并不是真正得出答案那段计算的逐字记录。模型可以一边写着部分错误的推理,一边给出正确答案;而更令人不安的是,它能写出一条干净、自信的链条,去为它出于完全不同的原因得到的答案找补理由。那段解释,有时只是事后编出来的故事。
这一点之所以要紧,是因为一条冗长、表达流畅的链条会显得很权威,而这种感觉恰恰就是陷阱。步骤的流畅,并不为结论的真实背书。一个推理得理直气壮的幻觉——编造的引用、貌似可信却根本不存在的 API、一个由三步之前那个错误前提推出来的数字——依然是幻觉,只不过穿戴整齐去面试罢了。
Q: A shop had 23 apples. It used 20 for lunch and bought 6 more. How many apples remain? Thinking: start = 23 after lunch = 23 - 20 = 3 after buying = 3 + 6 = 9 Answer: 9 <- correct, and the steps are checkable (Now imagine step 1 read "start = 32". Every later step would look just as tidy, and the final answer would be wrong.)
在实践中用好它
推理只是你提示工程工具箱里的一种技巧,它能和你已经认识的其他技巧组合使用。把它和少样本示例搭配,用示例展示你想要的推理风格;再用一段清晰的系统提示来设定角色与规则、给它定锚。同时留意你的上下文窗口:长链条加上几个完整范例会飞快吃掉词元,而这在每一次调用上都是实打实的金钱与时延成本。
- 先问自己:这个任务真的有多个步骤吗?如果只是一次查找或一句话的判断,就跳过思维链——它只会增加成本。
- 如果确属多步,那就要么调用推理模型,要么给标准模型加一句朴素的「作答前请一步一步推理」。
- 对高风险任务,采样多条链并取多数答案(自洽性);它们彼此分歧,本身就是一个有用的警报。
- 用事实依据或某个工具去核验结论——绝不要仅仅因为步骤读起来通顺就信它。
退一步看,主线很清晰:在恰当的时刻投入更多计算,能换来更可靠的推理——这呼应了苦涩的教训,也呼应了你将在前沿台阶遇到的规模定律。但计算不等于理解。下一篇导读自然地迈出下一步:当模型缺少某个事实时,别再指望它能凭推理到达,而是通过检索,直接把出处递到它手上。