之前有提过,我在用 agent 尝试从零做一个推理引擎。做到第三周,我意识到一件事:这个项目已经烂了。
不是代码跑不通的那种烂。是文档开始爆炸,七八个方向的实验脚本混在一个 repo 里,benchmark 结果散落在十几个 markdown 里,模型每次开工都要先花半天搞清楚自己上次做到哪了。我看着它在几个方向之间转来转去,每个都浅浅挖两下就换地方。指导多一点,它就很听话地跟着你转;指导少一点,它就自己原地打转。
这不是它原本的水平。前两天它还能十几个小时从零把 78 层的链路拼通。
混乱里走不出去
后来这个局面我反复遇到,结论很一致:上下文一旦混乱,模型在里面是走不出去的。我几乎没见过哪次它能从烂摊子里自己爬出来,每次都是我把摊子掀了。
这不是体感偏差,有人测过。微软和 Salesforce 去年模拟了二十多万场多轮对话,测了 15 个模型,结论写在摘要里:LLM 在对话里一旦走错一步,就会迷路,并且不会恢复。平均性能掉 39%。拆解开看更有意思:能力只降了 16%,不可靠性涨了 112%。模型没变笨多少,它是变得极其不稳定,同一个问题有时答得很好,有时稀烂。这跟我看到的一模一样,它不是不会,是发挥不出来。
Chroma 那份 Context Rot 报告补了另一刀:哪怕任务简单到只是从一堆文本里捞一句话,输入越长,18 个模型的表现全都往下掉,掉法还不均匀。上下文是个有限资源。Anthropic 的说法叫 attention budget——每多塞一个 token,都在消耗模型的注意力预算。
你的 repo 越乱,这笔预算烧得越快。
重开之后
每次的解法都一样:停下来,想清楚目标到底是什么,开一个新 repo、新上下文,把这一个目标和执行路径写清楚,重新开始。注意是「这一个」。重开之后基本只能锁定一个方向,多线并行这时候是奢望。
变化是翻天覆地的。同一个模型,前一天还在烂摊子里打转,重开之后像换了个物种:往深处挖,主动找改进点,推进效率完全不是一个量级。我粗估差三五倍,而且很可能不是线性的。混乱环境里它可能永远达不成目标,干净环境里它是在实实在在地逼近目标。
微软那篇论文给用户的建议,翻译过来就两条:有时间就重开一局;重开之前,先让模型把已知信息整合一遍带过去。他们测了,把散落在多轮里的信息合并成一轮重新喂,性能恢复到单轮的 95%。Anthropic 做多智能体研究系统也是这么干的:上下文快满了,就开干净上下文的新 agent,做好交接。
行业里管这个叫 compaction 也好、context engineering 也好,叫什么不重要。事就是一件:你给模型什么环境,它还你什么表现。
重写是自杀,重开不是
软件工程有条老铁律,Joel Spolsky 二十多年前写的:永远不要从零重写。Netscape 决定重写浏览器,三年没发出大版本,市场拱手让给了 IE。这条铁律管了行业二十年。
但它有个前提:重建成本极高。一个团队重写三年,对手不会停下来等你。
Agent 把重建成本打没了。新 repo、新上下文、重新梳理目标,半天的事。原来攒下的结论和踩过的坑,整理成文档带过去就行。重建从三年变成半天,铁律就反过来了:修补烂上下文,比重开贵得多。
所以探索期那些看起来浪费掉的混乱,其实没浪费。重开时那个清晰的目标,恰恰是从第一轮乱撞里长出来的:哪些假设站住了,哪些方向关掉了。没有那段混乱,你写不出那份清晰。代码可以扔,认知带走。
Harness 的分量
「harness」这个词这两年从评测圈一路烧到工程圈。METR 在 2023 年就把 scaffolding 写进评测方法论;今年 2 月 OpenAI 发了篇 Harness engineering,把工程师的工作重新定义为「设计环境、表达意图、搭反馈回路」;4 月 Martin Fowler 的站上给了个最简洁的定义:harness 就是 agent 里除了模型之外的一切。
分量有多重,Terminal-Bench 2.0 的榜单上写着:同一个 Opus 4.6,配不同的 harness,得分从 58 到 76,差 18 个百分点。而同一个 harness 下,GPT-5 换成 GPT-5.2,也就提 19 个百分点。harness 设计的好坏,差出一代模型。
Addy Osmani 那句话说得糙但准:普通模型配好 harness,能赢过顶级模型配烂 harness。
我自己的版本更糙:你给模型的环境,就是它的天花板。
人的价值在涨
这几个月还有个越来越强的体感:人变得更值钱了。
判断该不该掀摊子重开,是人。从一堆乱七八糟的探索结果里收敛出「真正要解决的问题是什么」,也是人。Agent 在模糊复杂的问题里自己找不到出路,这几个月我见得太多了。OpenAI 那篇博客里有句话我很认同:Humans steer. Agents execute. 人掌舵,agent 执行。
所以 agent 不是许愿机,它是一个很强的员工。你带得好,他能做出卓越的成果;你撒手把活一丢,他大概率也做不出什么来。模型一直在变强,Fable 5 的工程能力又上了一个台阶,每一代都在把你能跨的边界往外推。但「带」这件事,暂时没有人能替你做。
写在最后
乱了就重开。这五个字是我这几个月用 agent 做复杂项目攒下的、最值钱的一条经验。
模型会继续变强。但环境是你给的,掀摊子的决定是你下的。
智能越便宜,清晰越值钱。
参考资料
- Laban et al., "LLMs Get Lost In Multi-Turn Conversation", arXiv:2505.06120, 2025-05,https://arxiv.org/abs/2505.06120
- Chroma, "Context Rot: How Increasing Input Tokens Impacts LLM Performance", 2025-07-14,https://research.trychroma.com/context-rot
- Anthropic, "Effective context engineering for AI agents", 2025-09-29,https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents
- Anthropic, "How we built our multi-agent research system", 2025-06-13,https://www.anthropic.com/engineering/multi-agent-research-system
- Terminal-Bench 2.0 Leaderboard,https://www.tbench.ai/leaderboard/terminal-bench/2.0(2026-06-12 读取)
- OpenAI, "Harness engineering: leveraging Codex in an agent-first world", 2026-02,https://openai.com/index/harness-engineering/
- Birgitta Böckeler, "Harness engineering for coding agent users", martinfowler.com, 2026-04-02,https://martinfowler.com/articles/harness-engineering.html
- Addy Osmani, "Agent Harness Engineering", O'Reilly Radar, 2026-05-15,https://www.oreilly.com/radar/agent-harness-engineering/
- Joel Spolsky, "Things You Should Never Do, Part I", 2000-04-06,https://www.joelonsoftware.com/2000/04/06/things-you-should-never-do-part-i/
- METR, "Evaluating Language-Model Agents on Realistic Autonomous Tasks", 2023-08,https://metr.org/blog/2023-08-01-new-report/
