Codex 5.5：版本号是骗人的

OpenAI 4 月 23 号悄悄上线了 GPT-5.5，代号 SPUD（土豆）。版本号给得很克制，5.4 到 5.5，0.1 个版本。我用了两周下来，体感这个跨度根本不止这个数。它是 GPT-4.5 之后第一次完整重训的基座，不是 5.4 上做的微调。

我自己变化最直接。原本是 Claude Code 的重度用户，现在基本不打开了。那个标签页留着，只在很少几个场景里会用到。其他时间都在 Codex 5.5 里。

换过去的原因不是它比旧的好 5%、好 10%。Claude Code 之前那几个让人头疼的短板，5.5 这一波一次性都补完了。

一、那些让人想点拒绝的瞬间，没了

用过 Claude Code 的人都体感过这个东西：刚开始用，它什么都问你权限。文件能不能读？命令能不能跑？要不要让我连网？每一步都要点确认。

然后大家发现：基本上每次都是点"允许"。索性把开关拨到 dangerously bypass permissions，全默认通过。

这从侧面反映了它已经足够成熟。你已经很久没真的想点过拒绝了。它不会乱来，至少不容易把事情搞砸。但它也经常很难一次性把事情做对。Claude 的特点是快，几分钟就能给你东西看，可你拿过来验收，明显的问题就摆在那，它就是没找出来。

这种"快但不准"的体验，是 Claude Code 这一代最大的短板。

5.5 这次让我惊讶的，是它把几个老短板一次性都补了。

过程开始说人话了。 之前 Codex 中间过程是糊一团的中间件，盯着也搞不清在干什么。5.5 之后它会告诉你每一步在做什么、为什么要这么做。这事听起来不复杂，但对长任务的体验差别非常大。

不墨迹了。 之前感觉是一个任务左试一下右试一下，绕一大圈才找到那个点。现在它的判断变得清晰，知道什么时候该加速。发现某个任务正在等待，它会先去并行做点别的，把下一步要用的东西提前准备好。这种行为我之前真没见过，第一次看到挺意外的。端到端执行效率因此上了一个台阶。

下一步建议突然有价值了。 Codex 一直有个习惯：每次任务结束都给一个 next step。GPT-5.4 时代这个建议经常是凑数的。5.5 之后我发现它的提议变得相当靠谱，连续在一个项目里干了 8 个小时，我基本上每次都点"继续"。这意味着它在把握"高价值方向"这件事上的能力起来了。

compact 这个老毛病终于解了。 我之前 5.4 用得不深，对 compact 没那么敏感。但深度切过来之后，长会话不可避免要压缩上下文。Codex 这边的压缩比 Claude Code 稳很多。大多数信息压完都还在，Claude Code 那边一压基本上半张脸都没了。

这件事被研究比较过。Codex 是把整段对话交给模型重写成结构化的"交接摘要"，里面带着元数据和工具状态；Claude Code 用的是分层人类可读摘要，肉眼能看懂但天然有损。两种思路各有道理，实际长会话里我体感是 Codex 这边信息掉得更少。

5.4 时代 compact 经常因为网络问题中断的体验也彻底好了。session 可以一整天连续跑，几乎不用管。

二、形态已经变了

5.4 那会儿研究能力其实就已经相当强。5.5 短板补完之后，它整个的形态都变了。

我现在能让它以非常高的自动化程度完成复杂任务。前提是任务能端到端验证。比如做算子层的性能调优。这种场景颗粒度小、迭代快、有 AB 可比，5.5 跑起来非常专业。它会主动设计查询、跑完改良、再去验证下一步是不是真的好了。整条链路自己往前推。人不在的情况下，它能连续跑几十轮。

这种密集循环里它现在很难被绊倒。OpenAI 公布的几个数字也支持这个体感：Terminal-Bench 2.0 上 82.7%，FrontierMath 第 1-3 档 51.7%，ARC-1 推理任务 95%。研究者那边的反馈更直接：开始有人让它晚上自己跑实验变体，早上来看完成的扫频仪表盘。

它当然不完美。我注意到两个明显的天花板。

第一个是大系统的格局问题。让它从一个总的架构层面看全局，视野是受限的，给的方案经常停留在局部。

第二个是创新和创造力。如果你完全甩手，它给你的方案大概率是中规中矩的。你得自己先把思路甩过去，让它在你的思路上展开和评估。

但即便有这些短板，整件事已经让我觉得不太一样了。原本你以为不盯着它就会跑偏，现在你会发现它连续跑几小时回头看，绝大部分都是在做合理的事。在写代码这条主线上，它会自发地优先去验证、谨慎一步步推进，而不是急冲冲往前撞。

这一面让我突然想清楚了一件事。agent 的设计哲学，其实已经定型了。

三、"假设下一步会失败"，是一种哲学

从 Claude Code 到 Codex，这一类编程 agent 的设计都建立在同一个假设之上：下一步可能失败。

整个工程都围着这个假设构建。我怎么样在下一步可能失败的情况下把这一步做好？真失败了，我有没有路径回滚或者绕过？工具调用没成功？换一个思路。写出来的东西不符预期？回去重新验证。

听上去简单，但这是 Claude Code 整个工程里 98% 的代码量在做的事。权限闸门、上下文管理、工具路由、错误恢复逻辑，大都是确定性的工程基础设施。模型本身只是这个 harness 上的一个组件。

5.5 让我看到的是这种哲学开始结出果实。在它的执行过程中，"先验证再推进"已经是自发选择。它要保证每一步都立得住，而不是一次跑多快。

这就是所谓的"慢就是快"。

我们之前对 agent 的期待一直是"诶你给我一冲到底，半小时给我个结果"。结果你回头看，错落百出，找补的时间是原来的 3 倍 5 倍。短期看着爽，长期跑下来反而最慢。

每一小步都走得稳之后，要做的事就是想办法让它走得快。fast mode、并行子任务、24 小时不间断运转，这些放大器能成立的前提是底下每一步都不出错。

四、为什么我说这是爆炸前夜

把上面的事实串起来：

它已经能超过相当一部分领域专家。
它能不知疲倦地连续工作几个小时。
它能做相当复杂的科研类工作，只要任务能端到端验证。
它的成本没有显著上涨。同样的 Codex 任务，5.5 比 5.4 还更省 token。

这意味着什么？意味着技术爆炸最先会发生在那种"颗粒小、能验证、能迭代"的领域。算子优化、性能调优、特定子领域的科研、自动化工作流。这些地方多一个不知疲倦、推理水平接近顶尖专家、能自己设计实验的同事，进展速度会很可怕。

那条线之外的事，大系统的格局判断、原创思路、跨领域综合，人的角色还很重要。但每次小版本迭代，模型都在朝这个方向多挪一点。

三个月前我跟一个朋友吃饭，他抛过一个问题：既然现在 coding agent 这么强，那有没有真的看到没有工程背景的人靠它 ship 出东西？

那时候我说"慢慢会有"。现在已经在发生。一个零编程经验的瑜伽馆店主用 Lovable 两小时搭出了自己的预约系统，登录、日程、支付都齐全，那一周就上线。这种例子开始变多。NVIDIA 内部一万多名员工在通过 Codex 处理日常，覆盖工程、法务、财务、运营。Codex 已经不只是工程师的工具。

我相信下一步还会更进一步。这些非工程背景的人，会开始 ship 出像样的研究成果。它们一开始会出现在那些颗粒小、能验证、能迭代的细分领域。

5.4 让我看到的是能力的提升。5.5 让我看到了路径。agent 在这个设计哲学下持续演进，会真的改变知识生产的形态。

如果当前的发展速度不被打断，知识层面的大爆炸会比很多人预想的更快到来。

之前工信部的一位领导跟我聊，问哪些方向值得多关注。我当时说要多看一眼 GPT-5 这条线，它的能力轨迹跟 Claude Code、跟之前小龙虾那一类不太一样，能解决的问题类型也不一样。5.5 出来之后我又确认了一遍这个判断。两条不同的演化路径，得分开看。

下一步一定会有一大批有趣的产品和成果 ship 到市面上，三个月后见分晓。

Codex 5.5：版本号是骗人的

一、那些让人想点拒绝的瞬间，没了

二、形态已经变了

三、"假设下一步会失败"，是一种哲学

四、为什么我说这是爆炸前夜

参考资料

推荐阅读

订阅博客更新

评论