你写的提示词，可能正在拖累你的 Agent

最近做智能体产品，有个发现挺有意思。

传统软件工程那些活，写接口、搭架构、做测试，正在变得越来越简单。大多数问题有范式可循，过去的经验和检验手段也比较成熟。拿 coding agent 来干，遇到问题就让它做，做完就试，试完评估，链路很清晰。

对于这类机械化的工作，agent 已经做得相当好了。

但有一块非常难。就是 agent 本身的行为。

80% 的价值来自 Agent

现在产品和应用里大概 80% 的价值来自于 agent 本身。前端、后端、数据库、部署，说白了都是脚手架。

矛盾在于：传统软件工程的价值在缩水，但新长出来的价值，也就是 agent 的行为，恰恰是我们最不可控、最不知道怎么研究的东西。

到底怎么做出一个好的 agent？这个问题我觉得会困扰接下来很长一段时间。

从 ChatGPT 出来到现在三年，范式一直在转移。之前沉淀的方法，过段时间大家就发现不太行，然后又换。

最开始是提示词工程。大家的直觉反应就是研究怎么写好提示词，每天琢磨怎么让 AI 更听话，怎么把它嵌到业务链路里。

然后是 RAG。当时主要是为了解决上下文不够的问题。窗口短、上下文贵，8K、32K 就算不错了。大家想让 AI 有用一点，就把知识切片喂给它。这个方向有过一段热度，然后突然间没人聊了。

天花板太低。怎么做都到不了理想效果。agent 的准确率到了 80%、85%，再往上提不动。

对 RAG 不满意，大家又开始搞微调。微调加 RAG，试图让 agent 的行为更受控、更可预期。到今天，从 ROI 的角度看，也没有太多让人信服的案例。

再后来是知识图谱。觉得纯文本向量搜索太简单，信息关系不够丰富，微软提出了基于图的方案。框架没火起来。确实有帮助，但成本和速度让人难以接受。我之前看一个演示，跑一个任务要等 5 到 10 分钟，烧大量 token，最后回答一个微不足道的问题。准确和效率大家都要，不存在只追求一头的空间。

到了最近这波，上下文工程。模型推理能力变强，上下文窗口从 32K 拉到 128K、256K，现在在推 100 万 token。突然没人提 RAG 了。你有这么长的上下文，把上下文设计好不就行了？按需拉文档、按需披露信息，做那些切片搜索查询的意义到底有多大？

模型会推理了，上下文够长了，agent 整体能力确实在变强。

强到什么程度？现在你可以放任一个 agent 自主决策，选工具、做事情，连续工作两三个小时，大多数时候不会把事搞砸，还给你不错的结果。

放在去年，没人敢想。

但也正因为到了这个水平，期待就上来了。比如把 agent 嵌到一个系统里，个人操作系统也好，企业业务系统也好。能力很强，我也信它很强。但怎么管？怎么让它持续进步？

越来越像管理一个数字员工。干活快，热情高，加班不休息。你心里难免有种不安，它这么强，我该怎么跟它协作？

换个角度想，如果你能带着它创造更大的价值，让它在你这里的表现比在别处更好，你就是在放大它。放大它的价值，其实也是在巩固自己的位置。

有个很反直觉的现象。

很多人给 agent 写提示词，写得巨详尽，第一步做什么，第二步做什么，123456。结果 agent 的表现大幅下降。不是一点点，是断崖式地掉。

原因也简单：你写提示词的那个思考水平，可能赶不上它自己决策的水平。你写的东西变成了枷锁。它本来干得挺好的，被你的指令拉低了，变通能力也跟着变弱。

到底用什么方法给 agent 配备上下文？怎么优化它的行为？要不要做 RL 相关的研究？说实话，没有标准答案。所有人都坐在那里说，模型变强了，挺好。但怎么在一个系统里观测 agent 的行为、围绕目标去提升它，大家还是摸不着头绪。

比如定义任务成功率这类指标，怎么把它提上去？提上去之后，怎么把成本打下来？

从产品角度看，胜负手已经从代码转移到了 agent。谁的 agent 表现好，谁就赢。如果表现好的同时成本还低，那就没什么可打的了。

业内有公司在做这方面的研究。不一定从零训模型，很多是通过后训练加数据、给模型加 runtime 的方式来提升 agent 行为。像 MiroThinker，虽然公司不太出名，但研究方向挺有意思，试图通过 agent 行为层面的产品力来构建差异化。

从 2026 年开始，我觉得 agent 行为会成为一个真正的产品和技术方向。

传统软件工程师做的那些事，今年之内会被大幅压缩。但不是没方向了。产品与产品之间的差距，最后会体现在 agent 上，谁的智能体表现好、成本低。

如果你担心自己原来的技能正在被替代，我的建议是去研究 agent。

这件事是个真正的难题。coding agent 能帮你写代码、搭产品，但它自己的行为怎么优化，它帮不了自己。做出来的结果跟想象的不一样，没什么确定性，也不知道该怎么持续改进。但也就是因为难，这里才可能有真正的差异化。

能把 agent 调好的人，现在太少了。