跳转到主内容
博客

你写的提示词,可能正在拖累你的 Agent

提示词、RAG、微调、知识图谱、上下文工程,三年换了五波范式。模型是越来越强了,但怎么让 agent 在产品里表现好,我们其实还是不会。

3 分钟阅读
分享:
你写的提示词,可能正在拖累你的 Agent

最近做智能体产品,有个发现挺有意思。

传统软件工程那些活,写接口、搭架构、做测试,正在变得越来越简单。大多数问题有范式可循,过去的经验和检验手段也比较成熟。拿 coding agent 来干,遇到问题就让它做,做完就试,试完评估,链路很清晰。

对于这类机械化的工作,agent 已经做得相当好了。

但有一块非常难。就是 agent 本身的行为。

80% 的价值来自 Agent

现在产品和应用里大概 80% 的价值来自于 agent 本身。前端、后端、数据库、部署,说白了都是脚手架。

矛盾在于:传统软件工程的价值在缩水,但新长出来的价值,也就是 agent 的行为,恰恰是我们最不可控、最不知道怎么研究的东西。

到底怎么做出一个好的 agent?这个问题我觉得会困扰接下来很长一段时间。

三年五波范式,没一个站住的

从 ChatGPT 出来到现在三年,范式一直在转移。之前沉淀的方法,过段时间大家就发现不太行,然后又换。

最开始是提示词工程。大家的直觉反应就是研究怎么写好提示词,每天琢磨怎么让 AI 更听话,怎么把它嵌到业务链路里。

然后是 RAG。当时主要是为了解决上下文不够的问题。窗口短、上下文贵,8K、32K 就算不错了。大家想让 AI 有用一点,就把知识切片喂给它。这个方向有过一段热度,然后突然间没人聊了。

天花板太低。怎么做都到不了理想效果。agent 的准确率到了 80%、85%,再往上提不动。

对 RAG 不满意,大家又开始搞微调。微调加 RAG,试图让 agent 的行为更受控、更可预期。到今天,从 ROI 的角度看,也没有太多让人信服的案例。

再后来是知识图谱。觉得纯文本向量搜索太简单,信息关系不够丰富,微软提出了基于图的方案。框架没火起来。确实有帮助,但成本和速度让人难以接受。我之前看一个演示,跑一个任务要等 5 到 10 分钟,烧大量 token,最后回答一个微不足道的问题。准确和效率大家都要,不存在只追求一头的空间。

到了最近这波,上下文工程。模型推理能力变强,上下文窗口从 32K 拉到 128K、256K,现在在推 100 万 token。突然没人提 RAG 了。你有这么长的上下文,把上下文设计好不就行了?按需拉文档、按需披露信息,做那些切片搜索查询的意义到底有多大?

模型会推理了,上下文够长了,agent 整体能力确实在变强。

够强之后,新的困境

强到什么程度?现在你可以放任一个 agent 自主决策,选工具、做事情,连续工作两三个小时,大多数时候不会把事搞砸,还给你不错的结果。

放在去年,没人敢想。

但也正因为到了这个水平,期待就上来了。比如把 agent 嵌到一个系统里,个人操作系统也好,企业业务系统也好。能力很强,我也信它很强。但怎么管?怎么让它持续进步?

越来越像管理一个数字员工。干活快,热情高,加班不休息。你心里难免有种不安,它这么强,我该怎么跟它协作?

换个角度想,如果你能带着它创造更大的价值,让它在你这里的表现比在别处更好,你就是在放大它。放大它的价值,其实也是在巩固自己的位置。

你的提示词可能在害它

有个很反直觉的现象。

很多人给 agent 写提示词,写得巨详尽,第一步做什么,第二步做什么,123456。结果 agent 的表现大幅下降。不是一点点,是断崖式地掉。

原因也简单:你写提示词的那个思考水平,可能赶不上它自己决策的水平。你写的东西变成了枷锁。它本来干得挺好的,被你的指令拉低了,变通能力也跟着变弱。

到底用什么方法给 agent 配备上下文?怎么优化它的行为?要不要做 RL 相关的研究?说实话,没有标准答案。所有人都坐在那里说,模型变强了,挺好。但怎么在一个系统里观测 agent 的行为、围绕目标去提升它,大家还是摸不着头绪。

胜负手在转移

比如定义任务成功率这类指标,怎么把它提上去?提上去之后,怎么把成本打下来?

从产品角度看,胜负手已经从代码转移到了 agent。谁的 agent 表现好,谁就赢。如果表现好的同时成本还低,那就没什么可打的了。

业内有公司在做这方面的研究。不一定从零训模型,很多是通过后训练加数据、给模型加 runtime 的方式来提升 agent 行为。像 MiroThinker,虽然公司不太出名,但研究方向挺有意思,试图通过 agent 行为层面的产品力来构建差异化。

方向

从 2026 年开始,我觉得 agent 行为会成为一个真正的产品和技术方向。

传统软件工程师做的那些事,今年之内会被大幅压缩。但不是没方向了。产品与产品之间的差距,最后会体现在 agent 上,谁的智能体表现好、成本低。

如果你担心自己原来的技能正在被替代,我的建议是去研究 agent。

这件事是个真正的难题。coding agent 能帮你写代码、搭产品,但它自己的行为怎么优化,它帮不了自己。做出来的结果跟想象的不一样,没什么确定性,也不知道该怎么持续改进。但也就是因为难,这里才可能有真正的差异化。

能把 agent 调好的人,现在太少了。

推荐阅读

订阅博客更新

新文章发布时第一时间通知你,不会发送垃圾邮件。

仅用于博客更新通知,随时可以取消订阅。

评论

或匿名评论
0/2000