Harness乱了就要重开

上一篇提过，我在用 agent 从零做一个推理引擎。做到第三周，我意识到一件事：这个项目已经烂了。

不是代码跑不通的那种烂。是文档开始爆炸，七八个方向的实验脚本混在一个 repo 里，benchmark 结果散落在十几个 markdown 里，模型每次开工都要先花半天搞清楚自己上次做到哪了。我看着它在几个方向之间转来转去，每个都浅浅挖两下就换地方。指导多一点，它就很听话地跟着你转；指导少一点，它就自己原地打转。

这不是它原本的水平。前两天它还能十几个小时从零把 78 层的链路拼通。

混乱里走不出去

后来这个局面我反复遇到，结论很一致：上下文一旦混乱，模型在里面是走不出去的。我几乎没见过哪次它能从烂摊子里自己爬出来，每次都是我把摊子掀了。

这不是体感偏差，有人测过。微软和 Salesforce 去年模拟了二十多万场多轮对话，测了 15 个模型，结论写在摘要里：LLM 在对话里一旦走错一步，就会迷路，并且不会恢复。平均性能掉 39%。拆解开看更有意思：能力只降了 16%，不可靠性涨了 112%。模型没变笨多少，它是变得极其不稳定，同一个问题有时答得很好，有时稀烂。这跟我看到的一模一样，它不是不会，是发挥不出来。

Chroma 那份 Context Rot 报告补了另一刀：哪怕任务简单到只是从一堆文本里捞一句话，输入越长，18 个模型的表现全都往下掉，掉法还不均匀。上下文是个有限资源。Anthropic 的说法叫 attention budget——每多塞一个 token，都在消耗模型的注意力预算。

你的 repo 越乱，这笔预算烧得越快。

重开之后

每次的解法都一样：停下来，想清楚目标到底是什么，开一个新 repo、新上下文，把这一个目标和执行路径写清楚，重新开始。重开之后基本只能锁定一个方向，多线并行这时候是奢望。

变化是翻天覆地的。同一个模型，前一天还在烂摊子里打转，重开之后像换了个物种：往深处挖，主动找改进点，推进效率完全不是一个量级。我粗估差三五倍，而且很可能不是线性的。混乱环境里它可能永远达不成目标，干净环境里它是在实实在在地逼近目标。

微软那篇论文给用户的建议，翻译过来就两条：有时间就重开一局；重开之前，先让模型把已知信息整合一遍带过去。他们测了，把散落在多轮里的信息合并成一轮重新喂，性能恢复到单轮的 95%。Anthropic 做多智能体研究系统也是这么干的：上下文快满了，就开干净上下文的新 agent，做好交接。

行业里管这个叫 compaction 也好、context engineering 也好，叫什么不重要。事就是一件：你给模型什么环境，它还你什么表现。

重写是自杀，重开不是

软件工程有条老铁律，Joel Spolsky 二十多年前写的：永远不要从零重写。Netscape 决定重写浏览器，三年没发出大版本，市场拱手让给了 IE。这条铁律管了行业二十年。

但它有个前提：重建成本极高。一个团队重写三年，对手不会停下来等你。

Agent 把重建成本打没了。新 repo、新上下文、重新梳理目标，半天的事。原来攒下的结论和踩过的坑，整理成文档带过去就行。重建从三年变成半天，铁律就反过来了：修补烂上下文，比重开贵得多。

所以探索期那些看起来浪费掉的混乱，其实没浪费。重开时那个清晰的目标，恰恰是从第一轮乱撞里长出来的：哪些假设站住了，哪些方向关掉了。没有那段混乱，你写不出那份清晰。代码可以扔，认知带走。

Harness 的分量

「harness」这个词这两年从评测圈一路烧到工程圈。METR 在 2023 年就把 scaffolding 写进评测方法论；今年 2 月 OpenAI 发了篇 Harness engineering，把工程师的工作重新定义为「设计环境、表达意图、搭反馈回路」；4 月 Martin Fowler 的站上给了个最简洁的定义：harness 就是 agent 里除了模型之外的一切。

分量有多重，Terminal-Bench 2.0 的榜单上写着：同一个 Opus 4.6，配不同的 harness，得分从 58 到 76，差 18 个百分点。而同一个 harness 下，GPT-5 换成 GPT-5.2，也就提 19 个百分点。harness 设计的好坏，差出一代模型。

Addy Osmani 那句话说得糙但准：普通模型配好 harness，能赢过顶级模型配烂 harness。

我自己的版本更糙：你给模型的环境，就是它的天花板。

人的价值在涨

这几个月还有个越来越强的体感：人变得更值钱了。

判断该不该掀摊子重开，是人。从一堆乱七八糟的探索结果里收敛出「真正要解决的问题是什么」，也是人。Agent 在模糊复杂的问题里自己找不到出路，这几个月我见得太多了。OpenAI 那篇博客里有句话我很认同：Humans steer. Agents execute. 人掌舵，agent 执行。

所以 agent 不是许愿机，它是一个很强的员工。你带得好，他能做出卓越的成果；你撒手把活一丢，他大概率也做不出什么来。模型一直在变强，Fable 5 的工程能力又上了一个台阶，每一代都在把你能跨的边界往外推。但「带」这件事，暂时没有人能替你做。

写在最后

乱了就重开。这五个字是我这几个月用 agent 做复杂项目攒下的、最值钱的一条经验。

模型会继续变强。但环境是你给的，掀摊子的决定是你下的。

智能越便宜，清晰越值钱。

参考资料

Laban et al., "LLMs Get Lost In Multi-Turn Conversation", arXiv:2505.06120, 2025-05，https://arxiv.org/abs/2505.06120
Chroma, "Context Rot: How Increasing Input Tokens Impacts LLM Performance", 2025-07-14，https://research.trychroma.com/context-rot
Anthropic, "Effective context engineering for AI agents", 2025-09-29，https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents
Anthropic, "How we built our multi-agent research system", 2025-06-13，https://www.anthropic.com/engineering/multi-agent-research-system
Terminal-Bench 2.0 Leaderboard，https://www.tbench.ai/leaderboard/terminal-bench/2.0（2026-06-12 读取）
OpenAI, "Harness engineering: leveraging Codex in an agent-first world", 2026-02，https://openai.com/index/harness-engineering/
Birgitta Böckeler, "Harness engineering for coding agent users", martinfowler.com, 2026-04-02，https://martinfowler.com/articles/harness-engineering.html
Addy Osmani, "Agent Harness Engineering", O'Reilly Radar, 2026-05-15，https://www.oreilly.com/radar/agent-harness-engineering/
Joel Spolsky, "Things You Should Never Do, Part I", 2000-04-06，https://www.joelonsoftware.com/2000/04/06/things-you-should-never-do-part-i/
METR, "Evaluating Language-Model Agents on Realistic Autonomous Tasks", 2023-08，https://metr.org/blog/2023-08-01-new-report/