跳转到主内容
博客
陪 agent 干活到此为止

陪 agent 干活到此为止

用 Codex APP 的自动化做了两天,烧了一个 Pro 账号,进展微乎其微。换到 Codex CLI 的 Goal 功能就立刻顺了。一开始以为是模型变蠢,后来想明白:是 agent 形态在定型,人不该再被绑在屏幕前。

关嘉伟关嘉伟8 分钟阅读
分享:

我用 Codex 的 APP 做了两天自动化,烧了一个 Pro 账号,进展微乎其微。换到 Codex CLI 的 Goal 功能,立刻就顺了。

一开始觉得反常。同样的模型,同样的任务,怎么换个壳子表现差这么多。两天之后想明白了:这不是 APP 的问题,是 agent 形态还在过渡,APP 提前去做「大众化」的尝试,跑在了模型能力之前。

放下账号让我意外的反而是另一件事。心态。

一、一个困惑

最近有个事一直没想明白,挂出来跟大家聊聊。

同一个 coding agent,在终端里和在官方 APP 里,行为差异大到不像是同一个东西。终端里跑得很爽,挪到 APP 里就明显变蠢。

按理说不该有这个差。APP 不就是个壳子吗,套个框架、改个视觉,行为应该一致才对。但一线重度用户的选择已经投了票,绝大多数还是泡在终端里,APP 推了这么久也没真正起来。

这事我自己实测之后发现,可能比想象中复杂。

二、Codex APP 的「自动化」:两天踩了一遍坑

事情起源于 GPT-5.5 出来之后那种「这模型已经够强」的感觉。

5.5 让 Codex 的端到端执行能力上了一档,长程任务里它会自发地选择「先验证再推进」。我体感它一个 loop 大概能撑住 30 分钟,干到一个阶段会自然停下来。盯了它好多天,发现自己在终端里其实就是反复说「继续」。下一步它判断得已经很可靠了。

那既然这样,为什么不让它高度自动化?反正就是「继续」。

我印象里 Codex APP 之前有 Routine 功能,正好用上。下下来之后才发现 Routine 不见了,改名叫「自动化」。读了一下文档,能力大体相似,就开始上手。

第一个坑是触发模式。它支持按固定时间跑、或者按间隔触发。我把自定义间隔调到半小时一次,让它围绕一个目标持续跑了两天。

我最开始想模拟终端里的体验:同一个会话不断「继续」,过几次迭代瞄一眼成果,发现跑偏了拉回来。在 APP 里这对应 thread automation,即在当前会话里挂上心跳式的定时唤醒。

听上去合理,实测发现一个隐藏限制:在一个会话里,自动化只能成功触发一次。第一次跑完,系统就把后续心跳吃掉了,理由是怕你形成无限循环。这就没法实现连续迭代了。

退一步,改用 standalone automation,每次起一个新会话,按时间表反复触发。这下能跑了,但代价两个。

第一是价格。每一个新会话都不带历史上下文,要把之前的状态以文档形式重新交接。新 session 没有任何缓存命中,会把所有相关文档从头爬一遍读一遍。OpenAI 的 prompt caching 机制下,缓存命中的 token 价格大约只有非命中的十分之一,这一下就把成本拉了 10 倍。我体感对得上:一个 Pro 账号同时跑三个独立自动化任务,差不多两天就把额度耗干了。

第二是表现。我把自动化方向收窄了,夜里只让它围绕单个具体小问题做尝试和突破。早上看进展,跑了八小时,进展微乎其微。

这跟我对终端里这个模型的预期差太多。在终端里我反复说四小时「继续」,得到的成果质量稳稳高于这八小时无人值守的产出。一开始让我以为是模型本身没那么强,后来推翻了。是 APP 这条路径有问题。

三、Codex CLI 的 Goal:终端里第一次见着像样的长跑

正好搜资料的时候看到,Codex CLI 在 0.128.0 版本里加了一个实验功能叫 /goal

它的设计逻辑很直接:你给一个目标(不是单个 prompt),它就持续走 plan → act → test → review → iterate 的循环,跑到目标达成或预算耗完为止。状态在会话之间持久化,可以暂停、恢复、清除。这跟我在 APP 自动化里苦苦想模拟的东西,本质就是一个东西。

我刚好在新机器上 set up,就开了这个功能体验。结论是它的体感跟我期待的差不多:长程执行能力撑得住,大多数时候围绕一个目标自己往前推,不太离谱地跑偏。这是终端里第一次见着真正像样的「长跑」形态。

到这里就有点尴尬。APP 的精美界面、可视化的 diff、对话气泡,最后效果不如一个朴素的终端循环。

为什么?

老实说我没琢磨明白。APP 不是开源的,背后到底怎么实现的看不到。但有个观察可能有点说法:真正在做长程任务的几个产品(Codex 终端 Goal、Boris 自己挂出来的 Claude Code 装备、OpenCode 这类社区项目)形态都收敛到一处。后台一个 loop,模型加工具调用加上下文追加,反复跑。状态用文件、用 git、用 worktree 持久化,UI 只是个观察口。

而 APP 这种围绕对话框设计的体验,在长跑场景里反而成了拖累。它把每一次交互当成一次独立的「问答」,结果该共享的上下文断了,该缓存的前缀变了,该让模型自己判断的「下一步」被人为拆成了多个事件。

四、放手 24 小时:心态变了一次

回到那两天的实验上,撇开成本和效果不谈,我注意到一个完全意外的东西。心态。

之前用 agent,不管它多自动化,你的心神始终是在它身上的。会不断等下一个回合、看它在干嘛、判断要不要纠偏。这个负担不在工时里,在意识里。你没有真的把这件事「交出去」,你只是把执行委托给了它,决策还在你这。

那 24 小时它自己在三个分支上跑的时候,第一次出现了「不需要盯」的感觉。我心里清楚它在工作,知道它具备这个能力,那就让它跑。这一天我去做了别的事。和家人吃饭、读了点哲学的东西、看了个电影。

成果不如预期,账面上是亏的。但那个心态变化我觉得是真的拐点。

我之前一直没意识到「随时盯着 agent」对意识的占用有多重。你以为没花时间,确实,你也就十几分钟看一次。但你的注意力一直系在那。一旦放手成立,整段时间是真的属于你的。

这件事让我想清楚了 agent 的演进阶段。

第一阶段,以人为中心。聊天机器人、代码补全。AI 是提效工具,每个细节人都要关注。

第二阶段,人指导 agent。这是当下的主流形态。让 agent 自己乱搞会出问题,得在过程里给指导,盯着它干活。这里有个反直觉的东西:这个阶段其实比纯人工更累。你的产出大很多,但身体和精神的负担反而更重。我家人对我的状态变化看得最清楚。她说我现在是真的 7x24 挂在那里。

第三阶段,agent 自主。人只负责定目标和偶尔监督,剩下的它自己搞定。我觉得 5.5 是第一个让这个阶段「看起来真的可能」的模型。

第二阶段是过渡态。它的特征就是「期望大于能力」。你希望 agent 能像员工一样独立干活,但模型还差一口气,所以你不得不补位。补到第三阶段就不用了。

五、模型 + 目标 + 循环

Boris Cherny(Claude Code 的创始人)最近反复在表达一个判断:未来一年,Claude Code 可能只剩 100 行代码。

他的逻辑是这样:现在 harness 里那一堆东西,权限闸门、上下文管理、工具路由、防 prompt injection、人工审核 hook,大部分是为「模型不够聪明」准备的。模型一旦能自己做对的判断,这些就成了累赘。剩下来真正必要的核心其实就一个 loop:

while (model returns tool calls):
  execute tool → capture result → append to context → call model again

这就是 Claude Code、Codex、Cursor agent、Manus 全部框架的共同底色。一个循环,外加目标和工具调用。

这个判断跟我自己的体感是吻合的。/goal 这种功能能成立,靠的是模型本身在「下一步该干嘛」上已经足够稳。你不再需要外部去约束它先做这个再做那个,它自己会规划,自己会判断要不要回退验证。

形态一旦定型,下一步的演化方向就很清楚了:一个人对应多个 agent,每个 agent 围绕一个目标在循环里跑,互相之间或许还会协作。是 agent team 而不再是 agent copilot。

六、Token 的逻辑会反过来

到这里有个有意思的副作用:token 消耗会跟人数解耦。

现在大部分付费用户的心态是「token 焦虑」。价格按周或按月结,那就要把额度榨满,不然有负罪感。底层逻辑跟雇人差不多:买的是时间,那就七乘二十四压榨。

但这个机制跟实际价值产生其实挺扭曲的。不是所有任务都需要 24 小时跑下去,绝大部分任务都不需要。

只是,第一阶段的瓶颈在「能力」,模型不够强,无法独立完成很多事。第二阶段的瓶颈在「人」,你只有这么多注意力,能开三个 agent 就顶天了。等到第三阶段,瓶颈转移到「目标」上:一个人有多少有价值的方向值得用 agent 去推?

这件事一旦成立,token 消耗就跟用户数没关系了。有的人到现在都没用过 agent,有的人一个月在 agent 上的开销已经过千美元(我自己也快这个量级)。这种分化只会更剧烈。一个人有 100 个 agent 在 24 小时为他跑,是完全可能的事。

短期内的现象是:token 需求会进一步爆发,但形态可能跟用户增长完全不挂钩。重度方向的少数人,会消耗掉绝大多数算力。

七、被解放出来去做什么

这就回到我开头说的那个心态变化。

人在工业化里被放在了一个矛盾的位置:管理者期望员工 7x24 工作、有自主性、又能实时被监督。这本身是矛盾的。因为「工资按月结」,所以管理者会想办法把这个矛盾推到最满。

agent 没有工资矛盾,它就是按 token 结算的。理论上你可以让它真的 24 小时跑。前提是它有能力在没人盯的情况下产出。这个前提,5.5 之后我觉得开始成立了。

成立之后,对人意味着什么?

这事我家人比我想得更通:人不应该被定义成生产单位。我那两天「无人值守」的状态,让她直接说了一句:你这种紧绷的状态,从健康看就是不可持续的。她说得对。第二阶段「比纯人工更累」这件事不是抱怨,是真的在发生。你在不断寻找跟 agent 协作的方式,那种摸索成本在精神上是真实的。

第三阶段如果真成立,人被腾出来的时间可以拿去做什么?去表达,去连接,去做感兴趣的事。简单的回答,但越想越觉得这才是值得的方向。学哲学也好,看影视也好,回归家庭也好,都是在「人」这个维度上加分的事。是 agent 替不了的事。

八、观察人的方式正在变

最后说一个偏宏观的判断。

整套价值体系都在被重塑。原来观察一个人产出的方式,是看他的工时、代码量、PR 数。这些指标在 agent 时代会越来越虚。Boris 一个人一天 150 个 PR,你怎么用 PR 数来评估他?

未来真正有区分度的东西,是领导力和目标感。你能不能定义有质感的目标?你能不能识别真正有价值的方向?你能不能让一队 agent 朝同一个北极星跑?

这些东西,原来在「人和人协作」里也重要,但还可以靠组织流程、KPI、激励去托底。换成「人和 agent 协作」,托底的东西没了。目标定不准就是直接的浪费,一晚上 100 美元在某个跑偏的方向上就烧光了。

放手是个很难的事。但有些事就是要放手才能走到下一步。


参考资料

推荐阅读

订阅博客更新

新文章发布时第一时间通知你,不会发送垃圾邮件。

仅用于博客更新通知,随时可以取消订阅。

评论

或匿名评论
0/2000