风水轮流转：模型一个半月一代

万众期待的 OpenAI "土豆"，今天发了。

结果不是 GPT-6，是 GPT-5.5。

我出来之后马上试了一下，发现它解决了 5.4 最让我头疼的一件事：它开始说人话了。

5.4 那会 Codex 输出的过程读起来很折磨。一堆词堆在一起没什么逻辑，中间的汇报、执行说明来回跳，大部分时候你看不懂它到底在干嘛。5.5 把这块修了，整个工作过程可读性一下上来。

然后就很搞笑。前段时间我还在团队里讲：GPT 5.4 虽然在某些复杂任务上比 Claude 强，但它不说人话，用得累；Claude 是说人话的，能带你走，所以还是推 Claude Code。有同事听完就把 Codex 退了，买了 Claude。今天我又得在群里发一条，要不你们两个账号都开吧，一起用。

大家能理解这事多离谱吗。

一个半月一代

5.4 是 3 月初发的。我当时就判断这不是小版本，它比上一代 Codex 5.3 强得不是一点半点。现在是 4 月 24 日，一个半月就又一代。

Anthropic 这边节奏更夸张。2 月发 Opus 4.6，上周发 Opus 4.7，中间两个月。更离谱的是 4 月 8 日他们官方还发了一个叫 Mythos Preview 的模型。官方说这是他们至今最强的模型，SWE-bench 93.9%，USAMO 数学奥赛比 Opus 4.6 高整整 31 个百分点。

但这个模型没对公众开放。只通过一个叫 Project Glasswing 的项目，给 Microsoft、Google、AWS、JPMorgan、Nvidia、Cisco 等 50 多家机构受限使用。配了 1 亿美金的 usage credits。

原因不是藏着掖着。官方说 Mythos Preview 的挖漏洞能力强到离谱——在主流操作系统和浏览器里能找出普通 bug hunter 根本挖不动的"几万级"零日漏洞，全面公开风险太大。上周的 Opus 4.7，相当于是同一代模型里"能公开发布"的那个阉割版本。

节奏现在就是这样：一个半月到两个月一定会有新一代，而且顶尖版本已经开始用"太强所以不公开"的理由来限制分发了。

去年是三个月打底

这个节奏放到一年前是不可想象的。

2025 年初 DeepSeek R1 出来之后，大家讨论了它整整半年。2 月份讲 R1，到 5、6 月份还在讲 R1。中间 V3.1 是小版本升级，其他公司也发了些模型，但基本没声量。到大概 6、7 月的时候 Kimi K2 才开始冒头，当时也打不过 R1。一个模型能把话题面主导半年。

海外那边，Google 的 Gemini 从去年秋天开始风头正盛。Nano Banana 的文生图冲击挺大，我印象里去年 9、10 月份参加一些顶尖学术会议，大家聊的全是 Gemini。多模态强、编程也好，哪一项都不差。

然后今年突然就变了。3 月之后再谈模型，Google 好像已经不存在了一样。大家对标的全是 Claude Opus，后面 OpenAI 迎头追上来。前几天我让团队做了一个盲测：OpenAI 的 Image Generation 2 和 Nano Banana 2 各出一张图，我故意不说谁是谁。团队全选了 OpenAI 那张。一看，正是 OpenAI。据说 Google 那边创始人又拉了红色警报，号召全员冲锋追赶。

一个季度前 Google 还在"最强、最全面"的位置上，一个季度后就已经在"我们要追赶了"。离谱到什么程度。你上次给团队的建议，过三个月可能就得推翻重来。

风水也在转

更逗的是，连模型风格都在风水轮流转。

几个月前我的判断：GPT 5.4 复杂任务强但不说人话，Claude 4.6 说人话但在某些硬骨头上差一点。所以推 Claude Code。

最近两周用 Opus 4.7，我发现它开始不说人话了。结构不清，话里堆一堆有的没的，跟 4.6 那种清爽感比差很多。社区里也有人发现了这个问题，说 Opus 4.7 开始"GPT 化"。

反过来 GPT-5.5 又开始说人话了。简洁，可读，不啰嗦。

两边像换了个身份一样。

这不光是某个模型在变好或变坏。是整个行业节奏太快，你的判断半衰期变短了。三个月前我很确信应该推 Claude Code，现在我不敢那么确信。不是谁做错选择，是"确信"这种东西在这个行业里已经很难持久。

最划算的投资

所以我越来越确信一件事：最划算的投资，没有之一，就是立刻去买一个 coding plan 的账号，然后开始用。

一个月几百美金，或者国产模型几百块人民币。你能第一时间用到世界上最顶尖的生产力。而且它每一个半月就升级一次。你今天搞不定的问题，两个月后下一代模型很可能自然就不是问题了。

为什么我强调 coding plan，不是直接用 API？

最近做一些 API 实验发现，Claude Code、Codex 这类产品里面，prompt caching 的命中率非常高，整个产品链条是一条贯通的优化链。缓存、调度、工具调用都打通了。这也是为什么厂商能在高亏损下支撑这么大用量。你如果用一些中转 API 搞来搞去，这条优化链就断了，价格不划算，稳定性也容易出问题。

有条件就直接官方 coding plan。多开几个账号都可以，每家一个月也就那点钱，用各自的长板。

进化是跳跃的

整件事我慢慢琢磨明白了，它不是线性的。

不是今天 10 分、明天 11 分、后天 12 分这样往上走。更像是：十一、十二、十三，然后卡在 13 很久，然后某一天直接跳到 100。

2024 年底 o1 推出之后，那个冬天我跟几位前沿研究者坐在一起讨论，大家觉得 reasoning 加强化学习这个范式很有机会把模型推向下一个 scaling law。几周之后 DeepSeek R1 就开源了。那种震撼我现在还记得。顶尖成果直接开源，R1 一出就冲到世界第一梯队，reasoning 变成了新默认范式。

再往前看。GPT-4 是 2023 年初发的，o1 是 2024 年底发的，中间将近两年是相对平缓的。说实话 2024 年我是有"放缓"体感的。2023 年大家被 3.5 到 4 的那次跃迁喂得预期太高，后面跟不上了。

回头看那不是放缓，那是在蓄力。下一跳出来就是 reasoning。

研究 AGI 的人喜欢画一个阶梯：对话，工具使用，智能体，研究，创新。你以为它是线性爬阶的，其实前面一直不太行，直到某一代模型突然跨过一个坎。而且一跨过去所有人都能跨过去。

Agent 不是被设计出来的，是被模型推出来的

再举一个范式跃迁的例子。

2025 年初，整个圈子讨论的全是同一个问题：AI 应用到底在哪里？我们做什么应用？当时没人能答。主流还是 IDE 嵌入补全（Cursor 那一路）、vector database 加流程编排（LangChain 那一路），还有各种拖拉拽 workflow 工具。

那时候 reasoning/thinking 能力被很多团队看成累赘。任务流都写好了，逻辑都固定了，模型多想反而容易跑偏。很多人推荐"关掉 thinking 开一个小模型效率更高"。

到 Opus 4.5 那一代（2025 年 9、10 月），上下文变长、工具调用变强，长程自主性也上来了。然后 Manus 一个演示视频扔出来，大家看完愣住：模型已经强到可以自己在长任务里推进了。有人立刻说"这没什么技术难度啊"。说得也没错，它真的不难。难的是意识到模型已经到了可以这么用的程度。

再往后 Claude Code 出来更极端。它不是 IDE 嵌入，是一个 CLI。终端里一个对话窗，你跟它说话，它自己去做事。很多人一开始接受不了"这也能干活？"。用了两天才发现，模型强到一定程度，IDE 本身反而成了累赘，在里面看来看去反而限制它发挥。

现在回头看 2025 年初那个"AI 应用在哪里"的问题，已经不存在了。不是被解决，是问题变得没意义。模型能干的事太多，这个问题的边界消失了。

普通人能第一时间参与

最后讲一点我觉得特别奇妙的。这件事竟然是普通人能第一时间参与的。

以前这种量级的技术，核能、航天、半导体，普通人不可能在新东西落地的几天内就摸到最前沿。AI 不一样。新模型发布之前会有一些圈内人提前几周体验，但时间差最多一个月。拖久了竞品就跟上来了，领先优势就被稀释。

所以每次新模型一发，你我几乎当天就能用到。用一台普通笔记本，几百块一个月，判断它好不好用，哪里强，哪里翻车。有时候你比研发它的人更早发现问题。

这种参与感以前没有过。时代本身在加速，节奏里的每一个人也被拉进来了。

几百块一个月就能站在前沿，这么划算的事，我这辈子还没遇到过。