人人都要当领导：用了一周 GPT-5.5 和 Opus 4.7 之后

四月这一波模型迭代密度有点夸张。Opus 4.7 在 4 月 16 日发布，同一天 Codex CLI 推出了 Goal Mode；4 月 23 日 GPT-5.5（代号 "Spud"）上线，紧跟着 5 月 5 日 GPT-5.5 Instant 直接顶替了 ChatGPT 的默认模型。一个月不到，我手里常用的几个模型全刷了一遍。

按理说手感应该很好。结果用了一周下来，我有两个发现跟自己一开始想的不一样。

一、模型跑得快，但人的预期跑得更快

模型这一年发的速度真不慢。按 Epoch AI 的数据，Anthropic 的中位发布间隔从 2024 年的 168 天压到了 2026 年的 71.5 天，OpenAI 直接是月更，整个前沿圈子的下限已经被压到 4 到 6 周。即使如此，使用过程里那种"怎么这么笨"的感觉还是会冒出来。

我自己反思下来，这事和模型本身关系不大，跟人的预期曲线有关。

举个例子。我小时候学过一段跳舞。最开心的是刚开始那阵，根本不会跳，对着镜子摆几个动作就觉得自己挺帅。最难受的反而是中段。自己刚学了一些基础，同时也开始看高水平的视频，审美的提升远远跑在动作能力前面，再看镜子里的自己怎么看怎么别扭。学拳击也是同一回事，没接触前觉得自己出拳像泰森，真上场练几节课下来，连躲闪都跟不上。

用 AI 是这条曲线的极端版本。

ChatGPT 刚出的时候那种跨越大家都记得，但人们不会停在那个跨越上。免费的时候，要它给世界级的咨询；付一点钱，就指望它在 80 分钟里解掉一道世界难题。一个原本想都不敢想的能力，一旦摆在面前，预期会以远远高于能力进步的速度往上跳。模型每 6 周强一档，预期可能每 6 天强一档。

我觉得这是很多人没办法持续用 coding agent 的根本原因。不是这工具不好，是用的人还没学会怎么调整自己对它的预期。

二、和它协作，比我想的难

我用 agent 经过了几个心态阶段。

第一阶段不太信任，每一步都盯着，看它哪里行哪里不行。第二阶段反过来，开始觉得诶它好像很多事比我自己强，那干脆撒手让它自己干。第三阶段，我用 Codex 桌面端开了一个无人值守任务跑了两天，烧掉了一个账号一整周的 token，结果是一堆走偏的弯路，成果不如我自己花两个小时干的。

这把我打回来一些。我开始重新和它做更密的协作，同时晚上让它自动跑一段时间，对照看差异在哪。Prompt 没写得很复杂，和我白天用的指令风格一致，轻量的方向，给充分的上下文。

有三个问题在自动化的场景下变得很显眼。

问题一：过早放弃

最先冒出来的是这个。

Claude 的表现最戏剧化，它的用词非常拟人。每次跑到稍微复杂一点的环节，它就会冒出一句类似"今晚的 session 已经差不多了，建议这里收尾，睡一觉，明早再开下一个 session"这样的话，给的理由经常是"接下来这块可能要烧很多 token，你要慎重"。

我后来直接在 prompt 里加了一句"今晚不睡觉，不要再提睡觉这件事"。

这背后并不是模型在偷懒，更像是训练目标显式收紧了。Anthropic 自己的 4.7 发布文档里有一句话写得很直白：模型现在更严格地遵守 effort 等级，会"把工作的范围限定在被问到的事情上，而不是主动越界"。这套行为对大多数日常请求是合理的。但放进自动化任务里就反过来了，因为很多有价值的探索，恰恰需要它越界一点。

GPT-5.5 不像 Claude 那么戏剧化，它的过早放弃更隐蔽。我观察下来它的策略大致是：先做一轮浅层探测，确认方向有没有立刻可见的机会，再决定是否深入。这个策略本身没毛病，问题出在后半段。一旦探测得到一个稍微负面的信号，它就会很快关掉整个方向，跳到下一个，几乎不会回过头质疑自己探测的方法本身有没有问题。

问题二：高潜力方向被一刀切

第二个问题是第一个的延伸，但更可惜。

人在做研究判断的时候，最值钱的能力之一是认为某些方向"这里有东西，但要挖一阵才能见底"。这种方向开头不确定性高，要持续投入，撞对了回报也极大。

而当前的 agent 在 token 效率训练之下，恰好对这类方向最不友好。它会用很简单的探测做出"不行"的判断，然后把这个方向永久关闭。下一次它在没有这个方向的搜索空间里继续尝试，结果就是绕开了那块最值得啃的硬骨头，最后落到一些好做但也没太大价值的局部解上面。

这件事让我重新看到一个东西的价值，就是人对方向的直觉判断。

这不是"我比 AI 懂得多"那种价值，恰恰相反，很多领域我根本没它懂。但在它有充分领域知识的前提下，我能根据各种零散信号告诉它"这个方向值得你再多挖一阵，就算暂时探不到"。这种判断会让总 token 上升，但带来的是真金白银的产出差异。

问题三：跨 session 的大局不一致

第三个问题最头疼。

在我自己手动用的时候，上下文是连贯的，一个 session 持续几小时，我可以不断微调方向。但在自动化里，agent 会反复起新的 session，每次都从外部文档读上下文。理论上只要文档完整，新 session 应该和老 session 保持一致才对。

实际不是这样。

同样的上下文，不同 session 起来，它对方向的判断可能会大幅度漂移。前一个 session 兴致勃勃地认定 A 方向值得深挖，下一个 session 看到同样的笔记，可能就把 A 放一边，跑去探 B；再下一个 session 又跳到 C。从外面看，整个工作呈现一种"东一榔锤西一棒子"的样子，几乎不可能聚出真正的成果。

这正是行业里被叫做 context rot 的现象。意思是上下文在跨会话使用下会"腐烂"，模型越来越难基于早先的决策保持一致，每个新会话都倾向于做局部最优。这两年专门做"持久上下文层"的工具公司一波接一波（Augment、Hindsight、OneContext 之类），就是为了解决这个事。但工具能解决的只是把上下文搬运得更完整，搬运不解决"模型每次读完之后判断会不一样"这个核心问题。

三、所以人人都要当领导

把上面三个问题摆在一起看，能看到一件事：人在协作里需要扮演的角色，正在变。

它不太像传统意义上的工程师，更像一个领导。

领导力的核心，不是比下面的人懂得更多。很多时候领导对具体技术方向并不专精。它的核心是在不确定里做出方向判断，并且能在零碎信号和反复反弹之间坚持或调整这个判断。这套能力以前主要在带团队的人身上才需要，现在每个用 agent 的人都得自己扛。

跟传统领导不同的是，agent 这个"团队"成本极低。带一个真人团队，月成本几十万到上百万；带几个 agent，月成本几千块就差不多了。低几个数量级的成本意味着每个普通人也能拥有自己的"团队"。但反过来，决策这件事再也甩不出去了。以前你还可以指望团队里的资深成员替你判断方向，现在 agent 不会替你判断，它会非常配合地按你的指引做下去，方向错了它也照做。

有几件事是它做不了、必须由你来补的。它过早放弃的时候，你得知道这个方向值不值得再多试一会儿；它把一个高潜力方向关掉的时候，你得能识别出来再把它领回去；它跨 session 漂移的时候，你得主动维护那个全局方向，不让每个新会话从零判断。

这些能力听上去都不像编程能力，更像 PM 或者 TL 的能力。但在 2026 年，它们正在变成每个普通使用者的基本功。

人人都要当领导的时代真的到了。