陪 agent 干活到此为止

我用 Codex 的 APP 做了两天自动化，烧了一个 Pro 账号，进展微乎其微。换到 Codex CLI 的 Goal 功能，立刻就顺了。

一开始觉得反常。同样的模型，同样的任务，怎么换个壳子表现差这么多。两天之后想明白了：这不是 APP 的问题，是 agent 形态还在过渡，APP 提前去做「大众化」的尝试，跑在了模型能力之前。

放下账号让我意外的反而是另一件事。心态。

一、一个困惑

最近有个事一直没想明白，挂出来跟大家聊聊。

同一个 coding agent，在终端里和在官方 APP 里，行为差异大到不像是同一个东西。终端里跑得很爽，挪到 APP 里就明显变蠢。

按理说不该有这个差。APP 不就是个壳子吗，套个框架、改个视觉，行为应该一致才对。但一线重度用户的选择已经投了票，绝大多数还是泡在终端里，APP 推了这么久也没真正起来。

这事我自己实测之后发现，可能比想象中复杂。

二、Codex APP 的「自动化」：两天踩了一遍坑

事情起源于 GPT-5.5 出来之后那种「这模型已经够强」的感觉。

5.5 让 Codex 的端到端执行能力上了一档，长程任务里它会自发地选择「先验证再推进」。我体感它一个 loop 大概能撑住 30 分钟，干到一个阶段会自然停下来。盯了它好多天，发现自己在终端里其实就是反复说「继续」。下一步它判断得已经很可靠了。

那既然这样，为什么不让它高度自动化？反正就是「继续」。

我印象里 Codex APP 之前有 Routine 功能，正好用上。下下来之后才发现 Routine 不见了，改名叫「自动化」。读了一下文档，能力大体相似，就开始上手。

第一个坑是触发模式。它支持按固定时间跑、或者按间隔触发。我把自定义间隔调到半小时一次，让它围绕一个目标持续跑了两天。

我最开始想模拟终端里的体验：同一个会话不断「继续」，过几次迭代瞄一眼成果，发现跑偏了拉回来。在 APP 里这对应 thread automation，即在当前会话里挂上心跳式的定时唤醒。

听上去合理，实测发现一个隐藏限制：在一个会话里，自动化只能成功触发一次。第一次跑完，系统就把后续心跳吃掉了，理由是怕你形成无限循环。这就没法实现连续迭代了。

退一步，改用 standalone automation，每次起一个新会话，按时间表反复触发。这下能跑了，但代价两个。

第一是价格。每一个新会话都不带历史上下文，要把之前的状态以文档形式重新交接。新 session 没有任何缓存命中，会把所有相关文档从头爬一遍读一遍。OpenAI 的 prompt caching 机制下，缓存命中的 token 价格大约只有非命中的十分之一，这一下就把成本拉了 10 倍。我体感对得上：一个 Pro 账号同时跑三个独立自动化任务，差不多两天就把额度耗干了。

第二是表现。我把自动化方向收窄了，夜里只让它围绕单个具体小问题做尝试和突破。早上看进展，跑了八小时，进展微乎其微。

这跟我对终端里这个模型的预期差太多。在终端里我反复说四小时「继续」，得到的成果质量稳稳高于这八小时无人值守的产出。一开始让我以为是模型本身没那么强，后来推翻了。是 APP 这条路径有问题。

三、Codex CLI 的 Goal：终端里第一次见着像样的长跑

正好搜资料的时候看到，Codex CLI 在 0.128.0 版本里加了一个实验功能叫 /goal。

它的设计逻辑很直接：你给一个目标（不是单个 prompt），它就持续走 plan → act → test → review → iterate 的循环，跑到目标达成或预算耗完为止。状态在会话之间持久化，可以暂停、恢复、清除。这跟我在 APP 自动化里苦苦想模拟的东西，本质就是一个东西。

我刚好在新机器上 set up，就开了这个功能体验。结论是它的体感跟我期待的差不多：长程执行能力撑得住，大多数时候围绕一个目标自己往前推，不太离谱地跑偏。这是终端里第一次见着真正像样的「长跑」形态。

到这里就有点尴尬。APP 的精美界面、可视化的 diff、对话气泡，最后效果不如一个朴素的终端循环。

为什么？

老实说我没琢磨明白。APP 不是开源的，背后到底怎么实现的看不到。但有个观察可能有点说法：真正在做长程任务的几个产品（Codex 终端 Goal、Boris 自己挂出来的 Claude Code 装备、OpenCode 这类社区项目）形态都收敛到一处。后台一个 loop，模型加工具调用加上下文追加，反复跑。状态用文件、用 git、用 worktree 持久化，UI 只是个观察口。

而 APP 这种围绕对话框设计的体验，在长跑场景里反而成了拖累。它把每一次交互当成一次独立的「问答」，结果该共享的上下文断了，该缓存的前缀变了，该让模型自己判断的「下一步」被人为拆成了多个事件。

四、放手 24 小时：心态变了一次

回到那两天的实验上，撇开成本和效果不谈，我注意到一个完全意外的东西。心态。

之前用 agent，不管它多自动化，你的心神始终是在它身上的。会不断等下一个回合、看它在干嘛、判断要不要纠偏。这个负担不在工时里，在意识里。你没有真的把这件事「交出去」，你只是把执行委托给了它，决策还在你这。

那 24 小时它自己在三个分支上跑的时候，第一次出现了「不需要盯」的感觉。我心里清楚它在工作，知道它具备这个能力，那就让它跑。这一天我去做了别的事。和家人吃饭、读了点哲学的东西、看了个电影。

成果不如预期，账面上是亏的。但那个心态变化我觉得是真的拐点。

我之前一直没意识到「随时盯着 agent」对意识的占用有多重。你以为没花时间，确实，你也就十几分钟看一次。但你的注意力一直系在那。一旦放手成立，整段时间是真的属于你的。

这件事让我想清楚了 agent 的演进阶段。

第一阶段，以人为中心。聊天机器人、代码补全。AI 是提效工具，每个细节人都要关注。

第二阶段，人指导 agent。这是当下的主流形态。让 agent 自己乱搞会出问题，得在过程里给指导，盯着它干活。这里有个反直觉的东西：这个阶段其实比纯人工更累。你的产出大很多，但身体和精神的负担反而更重。我家人对我的状态变化看得最清楚。她说我现在是真的 7x24 挂在那里。

第三阶段，agent 自主。人只负责定目标和偶尔监督，剩下的它自己搞定。我觉得 5.5 是第一个让这个阶段「看起来真的可能」的模型。

第二阶段是过渡态。它的特征就是「期望大于能力」。你希望 agent 能像员工一样独立干活，但模型还差一口气，所以你不得不补位。补到第三阶段就不用了。

五、模型 + 目标 + 循环

Boris Cherny（Claude Code 的创始人）最近反复在表达一个判断：未来一年，Claude Code 可能只剩 100 行代码。

他的逻辑是这样：现在 harness 里那一堆东西，权限闸门、上下文管理、工具路由、防 prompt injection、人工审核 hook，大部分是为「模型不够聪明」准备的。模型一旦能自己做对的判断，这些就成了累赘。剩下来真正必要的核心其实就一个 loop：

while (model returns tool calls):
  execute tool → capture result → append to context → call model again

这就是 Claude Code、Codex、Cursor agent、Manus 全部框架的共同底色。一个循环，外加目标和工具调用。

这个判断跟我自己的体感是吻合的。/goal 这种功能能成立，靠的是模型本身在「下一步该干嘛」上已经足够稳。你不再需要外部去约束它先做这个再做那个，它自己会规划，自己会判断要不要回退验证。

形态一旦定型，下一步的演化方向就很清楚了：一个人对应多个 agent，每个 agent 围绕一个目标在循环里跑，互相之间或许还会协作。是 agent team 而不再是 agent copilot。

六、Token 的逻辑会反过来

到这里有个有意思的副作用：token 消耗会跟人数解耦。

现在大部分付费用户的心态是「token 焦虑」。价格按周或按月结，那就要把额度榨满，不然有负罪感。底层逻辑跟雇人差不多：买的是时间，那就七乘二十四压榨。

但这个机制跟实际价值产生其实挺扭曲的。不是所有任务都需要 24 小时跑下去，绝大部分任务都不需要。

只是，第一阶段的瓶颈在「能力」，模型不够强，无法独立完成很多事。第二阶段的瓶颈在「人」，你只有这么多注意力，能开三个 agent 就顶天了。等到第三阶段，瓶颈转移到「目标」上：一个人有多少有价值的方向值得用 agent 去推？

这件事一旦成立，token 消耗就跟用户数没关系了。有的人到现在都没用过 agent，有的人一个月在 agent 上的开销已经过千美元（我自己也快这个量级）。这种分化只会更剧烈。一个人有 100 个 agent 在 24 小时为他跑，是完全可能的事。

短期内的现象是：token 需求会进一步爆发，但形态可能跟用户增长完全不挂钩。重度方向的少数人，会消耗掉绝大多数算力。

七、被解放出来去做什么

这就回到我开头说的那个心态变化。

人在工业化里被放在了一个矛盾的位置：管理者期望员工 7x24 工作、有自主性、又能实时被监督。这本身是矛盾的。因为「工资按月结」，所以管理者会想办法把这个矛盾推到最满。

agent 没有工资矛盾，它就是按 token 结算的。理论上你可以让它真的 24 小时跑。前提是它有能力在没人盯的情况下产出。这个前提，5.5 之后我觉得开始成立了。

成立之后，对人意味着什么？

这事我家人比我想得更通：人不应该被定义成生产单位。我那两天「无人值守」的状态，让她直接说了一句：你这种紧绷的状态，从健康看就是不可持续的。她说得对。第二阶段「比纯人工更累」这件事不是抱怨，是真的在发生。你在不断寻找跟 agent 协作的方式，那种摸索成本在精神上是真实的。

第三阶段如果真成立，人被腾出来的时间可以拿去做什么？去表达，去连接，去做感兴趣的事。简单的回答，但越想越觉得这才是值得的方向。学哲学也好，看影视也好，回归家庭也好，都是在「人」这个维度上加分的事。是 agent 替不了的事。

八、观察人的方式正在变

最后说一个偏宏观的判断。

整套价值体系都在被重塑。原来观察一个人产出的方式，是看他的工时、代码量、PR 数。这些指标在 agent 时代会越来越虚。Boris 一个人一天 150 个 PR，你怎么用 PR 数来评估他？

未来真正有区分度的东西，是领导力和目标感。你能不能定义有质感的目标？你能不能识别真正有价值的方向？你能不能让一队 agent 朝同一个北极星跑？

这些东西，原来在「人和人协作」里也重要，但还可以靠组织流程、KPI、激励去托底。换成「人和 agent 协作」，托底的东西没了。目标定不准就是直接的浪费，一晚上 100 美元在某个跑偏的方向上就烧光了。

放手是个很难的事。但有些事就是要放手才能走到下一步。