跳转到主内容
博客
Codex 5.5:版本号是骗人的

Codex 5.5:版本号是骗人的

代号 SPUD 的 GPT-5.5 上线两周,我把 Claude Code 卸得差不多了。让我意外的不是它强了几个百分点,是几个老短板一次性补完之后,agent 的设计哲学第一次变得清晰。

关嘉伟关嘉伟5 分钟阅读
分享:

OpenAI 4 月 23 号悄悄上线了 GPT-5.5,代号 SPUD(土豆)。版本号给得很克制,5.4 到 5.5,0.1 个版本。我用了两周下来,体感这个跨度根本不止这个数。它是 GPT-4.5 之后第一次完整重训的基座,不是 5.4 上做的微调。

我自己变化最直接。原本是 Claude Code 的重度用户,现在基本不打开了。那个标签页留着,只在很少几个场景里会用到。其他时间都在 Codex 5.5 里。

换过去的原因不是它比旧的好 5%、好 10%。Claude Code 之前那几个让人头疼的短板,5.5 这一波一次性都补完了。

一、那些让人想点拒绝的瞬间,没了

用过 Claude Code 的人都体感过这个东西:刚开始用,它什么都问你权限。文件能不能读?命令能不能跑?要不要让我连网?每一步都要点确认。

然后大家发现:基本上每次都是点"允许"。索性把开关拨到 dangerously bypass permissions,全默认通过。

这从侧面反映了它已经足够成熟。你已经很久没真的想点过拒绝了。它不会乱来,至少不容易把事情搞砸。但它也经常很难一次性把事情做对。Claude 的特点是快,几分钟就能给你东西看,可你拿过来验收,明显的问题就摆在那,它就是没找出来。

这种"快但不准"的体验,是 Claude Code 这一代最大的短板。

5.5 这次让我惊讶的,是它把几个老短板一次性都补了。

过程开始说人话了。 之前 Codex 中间过程是糊一团的中间件,盯着也搞不清在干什么。5.5 之后它会告诉你每一步在做什么、为什么要这么做。这事听起来不复杂,但对长任务的体验差别非常大。

不墨迹了。 之前感觉是一个任务左试一下右试一下,绕一大圈才找到那个点。现在它的判断变得清晰,知道什么时候该加速。发现某个任务正在等待,它会先去并行做点别的,把下一步要用的东西提前准备好。这种行为我之前真没见过,第一次看到挺意外的。端到端执行效率因此上了一个台阶。

下一步建议突然有价值了。 Codex 一直有个习惯:每次任务结束都给一个 next step。GPT-5.4 时代这个建议经常是凑数的。5.5 之后我发现它的提议变得相当靠谱,连续在一个项目里干了 8 个小时,我基本上每次都点"继续"。这意味着它在把握"高价值方向"这件事上的能力起来了。

compact 这个老毛病终于解了。 我之前 5.4 用得不深,对 compact 没那么敏感。但深度切过来之后,长会话不可避免要压缩上下文。Codex 这边的压缩比 Claude Code 稳很多。大多数信息压完都还在,Claude Code 那边一压基本上半张脸都没了。

这件事被研究比较过。Codex 是把整段对话交给模型重写成结构化的"交接摘要",里面带着元数据和工具状态;Claude Code 用的是分层人类可读摘要,肉眼能看懂但天然有损。两种思路各有道理,实际长会话里我体感是 Codex 这边信息掉得更少。

5.4 时代 compact 经常因为网络问题中断的体验也彻底好了。session 可以一整天连续跑,几乎不用管。

二、形态已经变了

5.4 那会儿研究能力其实就已经相当强。5.5 短板补完之后,它整个的形态都变了。

我现在能让它以非常高的自动化程度完成复杂任务。前提是任务能端到端验证。比如做算子层的性能调优。这种场景颗粒度小、迭代快、有 AB 可比,5.5 跑起来非常专业。它会主动设计查询、跑完改良、再去验证下一步是不是真的好了。整条链路自己往前推。人不在的情况下,它能连续跑几十轮。

这种密集循环里它现在很难被绊倒。OpenAI 公布的几个数字也支持这个体感:Terminal-Bench 2.0 上 82.7%,FrontierMath 第 1-3 档 51.7%,ARC-1 推理任务 95%。研究者那边的反馈更直接:开始有人让它晚上自己跑实验变体,早上来看完成的扫频仪表盘。

它当然不完美。我注意到两个明显的天花板。

第一个是大系统的格局问题。让它从一个总的架构层面看全局,视野是受限的,给的方案经常停留在局部。

第二个是创新和创造力。如果你完全甩手,它给你的方案大概率是中规中矩的。你得自己先把思路甩过去,让它在你的思路上展开和评估。

但即便有这些短板,整件事已经让我觉得不太一样了。原本你以为不盯着它就会跑偏,现在你会发现它连续跑几小时回头看,绝大部分都是在做合理的事。在写代码这条主线上,它会自发地优先去验证、谨慎一步步推进,而不是急冲冲往前撞。

这一面让我突然想清楚了一件事。agent 的设计哲学,其实已经定型了。

三、"假设下一步会失败",是一种哲学

从 Claude Code 到 Codex,这一类编程 agent 的设计都建立在同一个假设之上:下一步可能失败。

整个工程都围着这个假设构建。我怎么样在下一步可能失败的情况下把这一步做好?真失败了,我有没有路径回滚或者绕过?工具调用没成功?换一个思路。写出来的东西不符预期?回去重新验证。

听上去简单,但这是 Claude Code 整个工程里 98% 的代码量在做的事。权限闸门、上下文管理、工具路由、错误恢复逻辑,大都是确定性的工程基础设施。模型本身只是这个 harness 上的一个组件。

5.5 让我看到的是这种哲学开始结出果实。在它的执行过程中,"先验证再推进"已经是自发选择。它要保证每一步都立得住,而不是一次跑多快。

这就是所谓的"慢就是快"。

我们之前对 agent 的期待一直是"诶你给我一冲到底,半小时给我个结果"。结果你回头看,错落百出,找补的时间是原来的 3 倍 5 倍。短期看着爽,长期跑下来反而最慢。

每一小步都走得稳之后,要做的事就是想办法让它走得快。fast mode、并行子任务、24 小时不间断运转,这些放大器能成立的前提是底下每一步都不出错。

四、为什么我说这是爆炸前夜

把上面的事实串起来:

  • 它已经能超过相当一部分领域专家。
  • 它能不知疲倦地连续工作几个小时。
  • 它能做相当复杂的科研类工作,只要任务能端到端验证。
  • 它的成本没有显著上涨。同样的 Codex 任务,5.5 比 5.4 还更省 token。

这意味着什么?意味着技术爆炸最先会发生在那种"颗粒小、能验证、能迭代"的领域。算子优化、性能调优、特定子领域的科研、自动化工作流。这些地方多一个不知疲倦、推理水平接近顶尖专家、能自己设计实验的同事,进展速度会很可怕。

那条线之外的事,大系统的格局判断、原创思路、跨领域综合,人的角色还很重要。但每次小版本迭代,模型都在朝这个方向多挪一点。

三个月前我跟一个朋友吃饭,他抛过一个问题:既然现在 coding agent 这么强,那有没有真的看到没有工程背景的人靠它 ship 出东西?

那时候我说"慢慢会有"。现在已经在发生。一个零编程经验的瑜伽馆店主用 Lovable 两小时搭出了自己的预约系统,登录、日程、支付都齐全,那一周就上线。这种例子开始变多。NVIDIA 内部一万多名员工在通过 Codex 处理日常,覆盖工程、法务、财务、运营。Codex 已经不只是工程师的工具。

我相信下一步还会更进一步。这些非工程背景的人,会开始 ship 出像样的研究成果。它们一开始会出现在那些颗粒小、能验证、能迭代的细分领域。

5.4 让我看到的是能力的提升。5.5 让我看到了路径。agent 在这个设计哲学下持续演进,会真的改变知识生产的形态。

如果当前的发展速度不被打断,知识层面的大爆炸会比很多人预想的更快到来。

之前工信部的一位领导跟我聊,问哪些方向值得多关注。我当时说要多看一眼 GPT-5 这条线,它的能力轨迹跟 Claude Code、跟之前小龙虾那一类不太一样,能解决的问题类型也不一样。5.5 出来之后我又确认了一遍这个判断。两条不同的演化路径,得分开看。

下一步一定会有一大批有趣的产品和成果 ship 到市面上,三个月后见分晓。


参考资料

推荐阅读

订阅博客更新

新文章发布时第一时间通知你,不会发送垃圾邮件。

仅用于博客更新通知,随时可以取消订阅。

评论

或匿名评论
0/2000