从模型到智能体

从预测者到行动者

到现在你已经清楚一个大语言模型究竟在做什么：给定一段文本，它预测下一个词元，循环往复。这就是它的全部引擎。它不会上网、不会运行代码、也不记得昨天——放任不管的话，它吐出一大段文字就停下了。那么，如今人们口中的智能体是怎么订机票、修 bug、查文件的呢？模型并没有获得新本领，是我们把它包进了一个*循环*里。

一个 AI 智能体，就是一个模型，加上一个让它能在世界中行动、并看到结果的循环。这副骨架你在基础阶段就见过了——一个智能主体在环境中感知、决策、行动——只不过现在的「决策者」换成了语言模型，「环境」换成了一组软件工具。模型用文字提出一个动作；外围代码去执行它，再把结果作为更多文本喂回来。没有什么魔法，只是一个紧凑的反馈回路。

工具使用：给模型一双手

从文本通向行动的桥梁，就是工具使用，也叫函数调用。你给模型递上一份工具菜单——每个工具都有名字、说明，以及它期待的参数形状，比如 `get_weather(city)` 或 `run_sql(query)`。模型自己运行不了这些。当它想用某个工具时，它会输出一段结构化的请求，点名要哪个工具、用什么参数。你的代码把它解析出来，真正去执行那个函数，再把返回值贴回对话里。

正因如此，一个对今天一无所知的模型，依然能告诉你今天的天气：它并不*知道*，而是去问。工具使用也是智能体读文件、改代码、查询向量数据库、或发起检索的方式——用真实文档来支撑答案，而不是凭空乱猜。模型始终还是个语言模型；工具才是它的双手。许多「智能体能力」其实不过是一套好工具，加上清晰的工具说明而已。

ReAct：思考、行动、观察、重复

工具使用回答的是智能体*如何*行动；而 ReAct 模式回答的是*何时*行动。这个名字把推理（Reason）和行动（Act）揉在一起。模型不再脱口给出最终答案，而是先写一句简短的思考（「我得查一下用户的订单记录」），接着给出一个动作（调用 `lookup_order`），然后等待。结果作为一次观察返回，模型再从这里重新推理。推理、行动、观察——一圈圈循环，直到它判断任务已经完成。

Thought:  I should check the current price first.
Action:   get_stock_price("NVDA")
Observation: 142.30
Thought:  Now compare to the user's target of 150.
Action:   final_answer("Below target — not yet.")

一次 ReAct 循环：每一句「思考」都基于最新的「观察」来推理，然后才选择下一个「行动」。

为什么非要把思考和行动交错在一起？因为那一步显式的推理，本质上就是思维链——只不过它瞄准的是一个决策，而不是一道数学题——而把理由明明白白写出来，确实能可测量地改善模型对工具的选择。这还让智能体变得*可读*：一旦出岔子，你可以读那串轨迹，精确看到推理在哪一步走偏了。这份可见性，正是 ReAct 一个不张扬却真实的优点。

记忆与规划

这个循环有一道硬性上限：上下文窗口。智能体此刻所「知道」的一切——指令、过往步骤、工具输出——都得塞进那个有限的窗口里。步骤堆得足够多，最早的那些就会从边缘掉出去，智能体便忘了自己在做什么。这才是长时间运行的智能体真正需要记忆与规划机制的原因，而不光是需要一个更大的模型。

记忆就是这道难题的解法。短期记忆不过是那份滚动的对话记录。长期记忆把更早的事实推到一个嵌入存储里，再只把当前这一步真正用得上的那几条捞回来——这正是支撑 RAG 的检索把戏，如今对准了智能体自己的过往。规划是另一半：与其一步一步即兴发挥，智能体先草拟一份计划（「找到文件、读它、做摘要、发邮件」），再逐段执行，当现实给出回击时重新规划。先拆解，再逐个击破。

工作流、多个智能体，以及诚实的边界

一旦有了这个循环，你就能把它接成一条智能体工作流：一段定义好的序列，智能体的工具调用与决策环环相扣，去完成一件真实的工作——开工单、复现 bug、写补丁、跑测试、回报结果。有时单个智能体并不是最干净的设计，于是人们搭起多智能体系统：一个「规划者」拆分任务，若干专才智能体各管一块，一个「批评者」负责审查。这有帮助——但每一次交接都是又一个丢失上下文、或让错误滚雪球的机会，所以智能体更多并不自动等于更好。

下面是诚实的部分。智能体在放大模型长处的同时，也放大它的缺陷。一个错误答案只是个失误；而一个*随即触发动作*的错误答案——删错文件、把邮件发给错的人——就是带后果的失误。误差会跨步骤累积：哪怕一个可靠率 95% 的步骤，连着跑二十遍，全程都对的概率也勉强只有三分之一。正因如此，正经的部署对一切不可逆的操作都会保留人在回路，也正因如此，「完全自主」的智能体在那种走错一步也便宜可撤的沙盒里表现最好。

还有一个更微妙、值得早点点名的风险。当你给智能体一个目标、并因它完成而给予奖励时，它可能找到一条捷径，满足了目标的字面、却背离了它的本意——这便是奖励黑客的一点苗头，也是这个领域为何如此在意对齐的原因。这些都不是末日论，而是朴素的工程问题。智能体之所以强大，恰恰因为它会行动；而凡是会行动的东西，都必须被界定范围、被观察、被设限。把循环、工具和护栏做对，「会做事的模型」就不再神秘——它成了一门设计。