跳转到主内容
博客
风水轮流转:模型一个半月一代

风水轮流转:模型一个半月一代

GPT-5.5 今天发了,距 5.4 才一个半月。Opus 4.7 上周发了,距 4.6 才两个月。更逗的是 GPT 终于说人话了,Opus 反而开始不说了。这个节奏下,判断本身的半衰期都变短了。

关嘉伟关嘉伟5 分钟阅读
分享:

万众期待的 OpenAI "土豆",今天发了。

结果不是 GPT-6,是 GPT-5.5。

我出来之后马上试了一下,发现它解决了 5.4 最让我头疼的一件事:它开始说人话了

5.4 那会 Codex 输出的过程读起来很折磨。一堆词堆在一起没什么逻辑,中间的汇报、执行说明来回跳,大部分时候你看不懂它到底在干嘛。5.5 把这块修了,整个工作过程可读性一下上来。

然后就很搞笑。前段时间我还在团队里讲:GPT 5.4 虽然在某些复杂任务上比 Claude 强,但它不说人话,用得累;Claude 是说人话的,能带你走,所以还是推 Claude Code。有同事听完就把 Codex 退了,买了 Claude。今天我又得在群里发一条,要不你们两个账号都开吧,一起用。

大家能理解这事多离谱吗。

一个半月一代

5.4 是 3 月初发的。我当时就判断这不是小版本,它比上一代 Codex 5.3 强得不是一点半点。现在是 4 月 24 日,一个半月就又一代。

Anthropic 这边节奏更夸张。2 月发 Opus 4.6,上周发 Opus 4.7,中间两个月。更离谱的是 4 月 8 日他们官方还发了一个叫 Mythos Preview 的模型。官方说这是他们至今最强的模型,SWE-bench 93.9%,USAMO 数学奥赛比 Opus 4.6 高整整 31 个百分点。

但这个模型没对公众开放。只通过一个叫 Project Glasswing 的项目,给 Microsoft、Google、AWS、JPMorgan、Nvidia、Cisco 等 50 多家机构受限使用。配了 1 亿美金的 usage credits。

原因不是藏着掖着。官方说 Mythos Preview 的挖漏洞能力强到离谱——在主流操作系统和浏览器里能找出普通 bug hunter 根本挖不动的"几万级"零日漏洞,全面公开风险太大。上周的 Opus 4.7,相当于是同一代模型里"能公开发布"的那个阉割版本。

节奏现在就是这样:一个半月到两个月一定会有新一代,而且顶尖版本已经开始用"太强所以不公开"的理由来限制分发了。

去年是三个月打底

这个节奏放到一年前是不可想象的。

2025 年初 DeepSeek R1 出来之后,大家讨论了它整整半年。2 月份讲 R1,到 5、6 月份还在讲 R1。中间 V3.1 是小版本升级,其他公司也发了些模型,但基本没声量。到大概 6、7 月的时候 Kimi K2 才开始冒头,当时也打不过 R1。一个模型能把话题面主导半年。

海外那边,Google 的 Gemini 从去年秋天开始风头正盛。Nano Banana 的文生图冲击挺大,我印象里去年 9、10 月份参加一些顶尖学术会议,大家聊的全是 Gemini。多模态强、编程也好,哪一项都不差。

然后今年突然就变了。3 月之后再谈模型,Google 好像已经不存在了一样。大家对标的全是 Claude Opus,后面 OpenAI 迎头追上来。前几天我让团队做了一个盲测:OpenAI 的 Image Generation 2 和 Nano Banana 2 各出一张图,我故意不说谁是谁。团队全选了 OpenAI 那张。一看,正是 OpenAI。据说 Google 那边创始人又拉了红色警报,号召全员冲锋追赶。

一个季度前 Google 还在"最强、最全面"的位置上,一个季度后就已经在"我们要追赶了"。离谱到什么程度。你上次给团队的建议,过三个月可能就得推翻重来。

风水也在转

更逗的是,连模型风格都在风水轮流转。

几个月前我的判断:GPT 5.4 复杂任务强但不说人话,Claude 4.6 说人话但在某些硬骨头上差一点。所以推 Claude Code。

最近两周用 Opus 4.7,我发现它开始不说人话了。结构不清,话里堆一堆有的没的,跟 4.6 那种清爽感比差很多。社区里也有人发现了这个问题,说 Opus 4.7 开始"GPT 化"。

反过来 GPT-5.5 又开始说人话了。简洁,可读,不啰嗦。

两边像换了个身份一样。

这不光是某个模型在变好或变坏。是整个行业节奏太快,你的判断半衰期变短了。三个月前我很确信应该推 Claude Code,现在我不敢那么确信。不是谁做错选择,是"确信"这种东西在这个行业里已经很难持久。

最划算的投资

所以我越来越确信一件事:最划算的投资,没有之一,就是立刻去买一个 coding plan 的账号,然后开始用

一个月几百美金,或者国产模型几百块人民币。你能第一时间用到世界上最顶尖的生产力。而且它每一个半月就升级一次。你今天搞不定的问题,两个月后下一代模型很可能自然就不是问题了

为什么我强调 coding plan,不是直接用 API?

最近做一些 API 实验发现,Claude Code、Codex 这类产品里面,prompt caching 的命中率非常高,整个产品链条是一条贯通的优化链。缓存、调度、工具调用都打通了。这也是为什么厂商能在高亏损下支撑这么大用量。你如果用一些中转 API 搞来搞去,这条优化链就断了,价格不划算,稳定性也容易出问题。

有条件就直接官方 coding plan。多开几个账号都可以,每家一个月也就那点钱,用各自的长板。

进化是跳跃的

整件事我慢慢琢磨明白了,它不是线性的。

不是今天 10 分、明天 11 分、后天 12 分这样往上走。更像是:十一、十二、十三,然后卡在 13 很久,然后某一天直接跳到 100。

2024 年底 o1 推出之后,那个冬天我跟几位前沿研究者坐在一起讨论,大家觉得 reasoning 加强化学习这个范式很有机会把模型推向下一个 scaling law。几周之后 DeepSeek R1 就开源了。那种震撼我现在还记得。顶尖成果直接开源,R1 一出就冲到世界第一梯队,reasoning 变成了新默认范式。

再往前看。GPT-4 是 2023 年初发的,o1 是 2024 年底发的,中间将近两年是相对平缓的。说实话 2024 年我是有"放缓"体感的。2023 年大家被 3.5 到 4 的那次跃迁喂得预期太高,后面跟不上了。

回头看那不是放缓,那是在蓄力。下一跳出来就是 reasoning。

研究 AGI 的人喜欢画一个阶梯:对话,工具使用,智能体,研究,创新。你以为它是线性爬阶的,其实前面一直不太行,直到某一代模型突然跨过一个坎。而且一跨过去所有人都能跨过去

Agent 不是被设计出来的,是被模型推出来的

再举一个范式跃迁的例子。

2025 年初,整个圈子讨论的全是同一个问题:AI 应用到底在哪里?我们做什么应用?当时没人能答。主流还是 IDE 嵌入补全(Cursor 那一路)、vector database 加流程编排(LangChain 那一路),还有各种拖拉拽 workflow 工具。

那时候 reasoning/thinking 能力被很多团队看成累赘。任务流都写好了,逻辑都固定了,模型多想反而容易跑偏。很多人推荐"关掉 thinking 开一个小模型效率更高"。

到 Opus 4.5 那一代(2025 年 9、10 月),上下文变长、工具调用变强,长程自主性也上来了。然后 Manus 一个演示视频扔出来,大家看完愣住:模型已经强到可以自己在长任务里推进了。有人立刻说"这没什么技术难度啊"。说得也没错,它真的不难。难的是意识到模型已经到了可以这么用的程度

再往后 Claude Code 出来更极端。它不是 IDE 嵌入,是一个 CLI。终端里一个对话窗,你跟它说话,它自己去做事。很多人一开始接受不了"这也能干活?"。用了两天才发现,模型强到一定程度,IDE 本身反而成了累赘,在里面看来看去反而限制它发挥。

现在回头看 2025 年初那个"AI 应用在哪里"的问题,已经不存在了。不是被解决,是问题变得没意义。模型能干的事太多,这个问题的边界消失了。

普通人能第一时间参与

最后讲一点我觉得特别奇妙的。这件事竟然是普通人能第一时间参与的。

以前这种量级的技术,核能、航天、半导体,普通人不可能在新东西落地的几天内就摸到最前沿。AI 不一样。新模型发布之前会有一些圈内人提前几周体验,但时间差最多一个月。拖久了竞品就跟上来了,领先优势就被稀释。

所以每次新模型一发,你我几乎当天就能用到。用一台普通笔记本,几百块一个月,判断它好不好用,哪里强,哪里翻车。有时候你比研发它的人更早发现问题。

这种参与感以前没有过。时代本身在加速,节奏里的每一个人也被拉进来了。

几百块一个月就能站在前沿,这么划算的事,我这辈子还没遇到过。


参考资料

推荐阅读

订阅博客更新

新文章发布时第一时间通知你,不会发送垃圾邮件。

仅用于博客更新通知,随时可以取消订阅。

评论

或匿名评论
0/2000