Harness乱了就要重开
用 agent 从零做推理引擎,项目越探索越乱,模型表现肉眼可见地变差。后来每次的解法都一样:停下来重新定义目标,开新 repo 重来,同一个模型判若两人。微软模拟了 20 万场对话得出同一个结论:模型走错路,自己不会回头。
4 分钟阅读
4 篇文章
用 agent 从零做推理引擎,项目越探索越乱,模型表现肉眼可见地变差。后来每次的解法都一样:停下来重新定义目标,开新 repo 重来,同一个模型判若两人。微软模拟了 20 万场对话得出同一个结论:模型走错路,自己不会回头。
用 Codex APP 的自动化做了两天,烧了一个 Pro 账号,进展微乎其微。换到 Codex CLI 的 Goal 功能就立刻顺了。一开始以为是模型变蠢,后来想明白:是 agent 形态在定型,人不该再被绑在屏幕前。
代号 SPUD 的 GPT-5.5 上线两周,我把 Claude Code 卸得差不多了。让我意外的不是它强了几个百分点,是几个老短板一次性补完之后,agent 的设计哲学第一次变得清晰。