四月这一波模型迭代密度有点夸张。Opus 4.7 在 4 月 16 日发布,同一天 Codex CLI 推出了 Goal Mode;4 月 23 日 GPT-5.5(代号 "Spud")上线,紧跟着 5 月 5 日 GPT-5.5 Instant 直接顶替了 ChatGPT 的默认模型。一个月不到,我手里常用的几个模型全刷了一遍。
按理说手感应该很好。结果用了一周下来,我有两个发现跟自己一开始想的不一样。
一、模型跑得快,但人的预期跑得更快
模型这一年发的速度真不慢。按 Epoch AI 的数据,Anthropic 的中位发布间隔从 2024 年的 168 天压到了 2026 年的 71.5 天,OpenAI 直接是月更,整个前沿圈子的下限已经被压到 4 到 6 周。即使如此,使用过程里那种"怎么这么笨"的感觉还是会冒出来。
我自己反思下来,这事和模型本身关系不大,跟人的预期曲线有关。
举个例子。我小时候学过一段跳舞。最开心的是刚开始那阵,根本不会跳,对着镜子摆几个动作就觉得自己挺帅。最难受的反而是中段。自己刚学了一些基础,同时也开始看高水平的视频,审美的提升远远跑在动作能力前面,再看镜子里的自己怎么看怎么别扭。学拳击也是同一回事,没接触前觉得自己出拳像泰森,真上场练几节课下来,连躲闪都跟不上。
用 AI 是这条曲线的极端版本。
ChatGPT 刚出的时候那种跨越大家都记得,但人们不会停在那个跨越上。免费的时候,要它给世界级的咨询;付一点钱,就指望它在 80 分钟里解掉一道世界难题。一个原本想都不敢想的能力,一旦摆在面前,预期会以远远高于能力进步的速度往上跳。模型每 6 周强一档,预期可能每 6 天强一档。
我觉得这是很多人没办法持续用 coding agent 的根本原因。不是这工具不好,是用的人还没学会怎么调整自己对它的预期。
二、和它协作,比我想的难
我用 agent 经过了几个心态阶段。
第一阶段不太信任,每一步都盯着,看它哪里行哪里不行。第二阶段反过来,开始觉得诶它好像很多事比我自己强,那干脆撒手让它自己干。第三阶段,我用 Codex 桌面端开了一个无人值守任务跑了两天,烧掉了一个账号一整周的 token,结果是一堆走偏的弯路,成果不如我自己花两个小时干的。
这把我打回来一些。我开始重新和它做更密的协作,同时晚上让它自动跑一段时间,对照看差异在哪。Prompt 没写得很复杂,和我白天用的指令风格一致,轻量的方向,给充分的上下文。
有三个问题在自动化的场景下变得很显眼。
问题一:过早放弃
最先冒出来的是这个。
Claude 的表现最戏剧化,它的用词非常拟人。每次跑到稍微复杂一点的环节,它就会冒出一句类似"今晚的 session 已经差不多了,建议这里收尾,睡一觉,明早再开下一个 session"这样的话,给的理由经常是"接下来这块可能要烧很多 token,你要慎重"。
我后来直接在 prompt 里加了一句"今晚不睡觉,不要再提睡觉这件事"。
这背后并不是模型在偷懒,更像是训练目标显式收紧了。Anthropic 自己的 4.7 发布文档里有一句话写得很直白:模型现在更严格地遵守 effort 等级,会"把工作的范围限定在被问到的事情上,而不是主动越界"。这套行为对大多数日常请求是合理的。但放进自动化任务里就反过来了,因为很多有价值的探索,恰恰需要它越界一点。
GPT-5.5 不像 Claude 那么戏剧化,它的过早放弃更隐蔽。我观察下来它的策略大致是:先做一轮浅层探测,确认方向有没有立刻可见的机会,再决定是否深入。这个策略本身没毛病,问题出在后半段。一旦探测得到一个稍微负面的信号,它就会很快关掉整个方向,跳到下一个,几乎不会回过头质疑自己探测的方法本身有没有问题。
问题二:高潜力方向被一刀切
第二个问题是第一个的延伸,但更可惜。
人在做研究判断的时候,最值钱的能力之一是认为某些方向"这里有东西,但要挖一阵才能见底"。这种方向开头不确定性高,要持续投入,撞对了回报也极大。
而当前的 agent 在 token 效率训练之下,恰好对这类方向最不友好。它会用很简单的探测做出"不行"的判断,然后把这个方向永久关闭。下一次它在没有这个方向的搜索空间里继续尝试,结果就是绕开了那块最值得啃的硬骨头,最后落到一些好做但也没太大价值的局部解上面。
这件事让我重新看到一个东西的价值,就是人对方向的直觉判断。
这不是"我比 AI 懂得多"那种价值,恰恰相反,很多领域我根本没它懂。但在它有充分领域知识的前提下,我能根据各种零散信号告诉它"这个方向值得你再多挖一阵,就算暂时探不到"。这种判断会让总 token 上升,但带来的是真金白银的产出差异。
问题三:跨 session 的大局不一致
第三个问题最头疼。
在我自己手动用的时候,上下文是连贯的,一个 session 持续几小时,我可以不断微调方向。但在自动化里,agent 会反复起新的 session,每次都从外部文档读上下文。理论上只要文档完整,新 session 应该和老 session 保持一致才对。
实际不是这样。
同样的上下文,不同 session 起来,它对方向的判断可能会大幅度漂移。前一个 session 兴致勃勃地认定 A 方向值得深挖,下一个 session 看到同样的笔记,可能就把 A 放一边,跑去探 B;再下一个 session 又跳到 C。从外面看,整个工作呈现一种"东一榔锤西一棒子"的样子,几乎不可能聚出真正的成果。
这正是行业里被叫做 context rot 的现象。意思是上下文在跨会话使用下会"腐烂",模型越来越难基于早先的决策保持一致,每个新会话都倾向于做局部最优。这两年专门做"持久上下文层"的工具公司一波接一波(Augment、Hindsight、OneContext 之类),就是为了解决这个事。但工具能解决的只是把上下文搬运得更完整,搬运不解决"模型每次读完之后判断会不一样"这个核心问题。
三、所以人人都要当领导
把上面三个问题摆在一起看,能看到一件事:人在协作里需要扮演的角色,正在变。
它不太像传统意义上的工程师,更像一个领导。
领导力的核心,不是比下面的人懂得更多。很多时候领导对具体技术方向并不专精。它的核心是在不确定里做出方向判断,并且能在零碎信号和反复反弹之间坚持或调整这个判断。这套能力以前主要在带团队的人身上才需要,现在每个用 agent 的人都得自己扛。
跟传统领导不同的是,agent 这个"团队"成本极低。带一个真人团队,月成本几十万到上百万;带几个 agent,月成本几千块就差不多了。低几个数量级的成本意味着每个普通人也能拥有自己的"团队"。但反过来,决策这件事再也甩不出去了。以前你还可以指望团队里的资深成员替你判断方向,现在 agent 不会替你判断,它会非常配合地按你的指引做下去,方向错了它也照做。
有几件事是它做不了、必须由你来补的。它过早放弃的时候,你得知道这个方向值不值得再多试一会儿;它把一个高潜力方向关掉的时候,你得能识别出来再把它领回去;它跨 session 漂移的时候,你得主动维护那个全局方向,不让每个新会话从零判断。
这些能力听上去都不像编程能力,更像 PM 或者 TL 的能力。但在 2026 年,它们正在变成每个普通使用者的基本功。
人人都要当领导的时代真的到了。
参考资料
- Introducing Claude Opus 4.7 — Anthropic
- What's new in Claude Opus 4.7(关于 effort 行为收紧)— Anthropic Docs
- Introducing GPT-5.5 — OpenAI
- GPT-5.5 Instant 成为 ChatGPT 默认模型 — TechCrunch
- Codex Goal Mode:持续性目标与 token 预算 — Codex Blog
- Frontier Model Release Velocity Index 2026 Q2 — Digital Applied
- Context Rot in AI Coding Agents — MindStudio
- Why AI Agents Lose Context — Hindsight
- AI Model Release Tracker | Epoch AI
