从预测者到行动者
到现在你已经清楚一个大语言模型究竟在做什么:给定一段文本,它预测下一个词元,循环往复。这就是它的全部引擎。它不会上网、不会运行代码、也不记得昨天——放任不管的话,它吐出一大段文字就停下了。那么,如今人们口中的智能体是怎么订机票、修 bug、查文件的呢?模型并没有获得新本领,是我们把它包进了一个*循环*里。
一个 AI 智能体,就是一个模型,加上一个让它能在世界中行动、并看到结果的循环。这副骨架你在基础阶段就见过了——一个智能主体在环境中感知、决策、行动——只不过现在的「决策者」换成了语言模型,「环境」换成了一组软件工具。模型用文字提出一个动作;外围代码去执行它,再把结果作为更多文本喂回来。没有什么魔法,只是一个紧凑的反馈回路。
工具使用:给模型一双手
从文本通向行动的桥梁,就是工具使用,也叫函数调用。你给模型递上一份工具菜单——每个工具都有名字、说明,以及它期待的参数形状,比如 `get_weather(city)` 或 `run_sql(query)`。模型自己运行不了这些。当它想用某个工具时,它会输出一段结构化的请求,点名要哪个工具、用什么参数。你的代码把它解析出来,真正去执行那个函数,再把返回值贴回对话里。
正因如此,一个对今天一无所知的模型,依然能告诉你今天的天气:它并不*知道*,而是去问。工具使用也是智能体读文件、改代码、查询向量数据库、或发起检索的方式——用真实文档来支撑答案,而不是凭空乱猜。模型始终还是个语言模型;工具才是它的双手。许多「智能体能力」其实不过是一套好工具,加上清晰的工具说明而已。
ReAct:思考、行动、观察、重复
工具使用回答的是智能体*如何*行动;而 ReAct 模式回答的是*何时*行动。这个名字把推理(Reason)和行动(Act)揉在一起。模型不再脱口给出最终答案,而是先写一句简短的思考(「我得查一下用户的订单记录」),接着给出一个动作(调用 `lookup_order`),然后等待。结果作为一次观察返回,模型再从这里重新推理。推理、行动、观察——一圈圈循环,直到它判断任务已经完成。
Thought: I should check the current price first.
Action: get_stock_price("NVDA")
Observation: 142.30
Thought: Now compare to the user's target of 150.
Action: final_answer("Below target — not yet.")为什么非要把思考和行动交错在一起?因为那一步显式的推理,本质上就是思维链——只不过它瞄准的是一个决策,而不是一道数学题——而把理由明明白白写出来,确实能可测量地改善模型对工具的选择。这还让智能体变得*可读*:一旦出岔子,你可以读那串轨迹,精确看到推理在哪一步走偏了。这份可见性,正是 ReAct 一个不张扬却真实的优点。
记忆与规划
这个循环有一道硬性上限:上下文窗口。智能体此刻所「知道」的一切——指令、过往步骤、工具输出——都得塞进那个有限的窗口里。步骤堆得足够多,最早的那些就会从边缘掉出去,智能体便忘了自己在做什么。这才是长时间运行的智能体真正需要记忆与规划机制的原因,而不光是需要一个更大的模型。
记忆就是这道难题的解法。短期记忆不过是那份滚动的对话记录。长期记忆把更早的事实推到一个嵌入存储里,再只把当前这一步真正用得上的那几条捞回来——这正是支撑 RAG 的检索把戏,如今对准了智能体自己的过往。规划是另一半:与其一步一步即兴发挥,智能体先草拟一份计划(「找到文件、读它、做摘要、发邮件」),再逐段执行,当现实给出回击时重新规划。先拆解,再逐个击破。
工作流、多个智能体,以及诚实的边界
一旦有了这个循环,你就能把它接成一条智能体工作流:一段定义好的序列,智能体的工具调用与决策环环相扣,去完成一件真实的工作——开工单、复现 bug、写补丁、跑测试、回报结果。有时单个智能体并不是最干净的设计,于是人们搭起多智能体系统:一个「规划者」拆分任务,若干专才智能体各管一块,一个「批评者」负责审查。这有帮助——但每一次交接都是又一个丢失上下文、或让错误滚雪球的机会,所以智能体更多并不自动等于更好。
下面是诚实的部分。智能体在放大模型长处的同时,也放大它的缺陷。一个错误答案只是个失误;而一个*随即触发动作*的错误答案——删错文件、把邮件发给错的人——就是带后果的失误。误差会跨步骤累积:哪怕一个可靠率 95% 的步骤,连着跑二十遍,全程都对的概率也勉强只有三分之一。正因如此,正经的部署对一切不可逆的操作都会保留人在回路,也正因如此,「完全自主」的智能体在那种走错一步也便宜可撤的沙盒里表现最好。
还有一个更微妙、值得早点点名的风险。当你给智能体一个目标、并因它完成而给予奖励时,它可能找到一条捷径,满足了目标的字面、却背离了它的本意——这便是奖励黑客的一点苗头,也是这个领域为何如此在意对齐的原因。这些都不是末日论,而是朴素的工程问题。智能体之所以强大,恰恰因为它会行动;而凡是会行动的东西,都必须被界定范围、被观察、被设限。把循环、工具和护栏做对,「会做事的模型」就不再神秘——它成了一门设计。