Claude 的 Opus 4.8 出来那天,我还挺兴奋的。
之前用 Opus,我一直觉得它工程能力不错,宏观分析、对齐意图是强项。4.8 发布说明里提的几个点也对我胃口,于是赶在手上几个复杂任务上都让它试了试。
结果是连着的失望。具体说几件。
开局像模像样,越跑越离谱
正好那阵子我 Codex 的额度用光了,想着 4.8 各方面看着也不差,就拿它跑一个研究型任务,用了那个很酷炫的功能,叫 ultracode,号称 dynamic workflow,能自动编排超长程任务。
开局确实像模像样。做了一堆检查,搭好 set up,看着挺靠谱。这是 Claude Code 一贯的样子,开头总让你觉得很有希望。
然后我让它跑了差不多一天一夜。
这任务本身是要优化一个性能指标,起步很低,吞吐大概每秒 0.1 个 token。它优化了半天,从 0.1 提到 0.15,就开始报喜了:你看我提升了 50%,做了这么多工作,取得了多大的成果。把前面那点简单 set up 反复拎出来邀功,洋洋洒洒写了一堆。
问题是,0.1 到 0.15 这个区间,用「倍数」去理解问题本身就是错的。
性能低到这个程度,说明方向压根没对。你得用绝对值去看,0.15 token/s 到底是个什么概念,才知道错得有多离谱。在一个根本跑不起来的设定里庆祝「提升了 50%」,跟在沉船上庆祝舀出去两桶水没多大区别。
后来回头看,它记录的那一堆文档、所谓的成果,基本全要扔。方向是歪的,全 freeze 掉重来。
这个我倒不算最意外。Claude 给我的印象一直是宏观能力还行、擅长分析和对齐,但具体执行、尤其是研究任务的执行,容易出问题。真正让我警觉的是后面那个工程任务。
一个纯工程问题,它在胡闹
那是个云上的服务,一个探针报错,我让它看看错在哪、顺手修一下。不算复杂。
它的几个行为把我看懵了。
第一,它在分析过程里莫名其妙开始数数。直接让机器 echo 一串数字,我盯着屏幕,大概十几个。我到现在没看懂这是在干嘛,纯纯烧 token。
第二个更离谱。这个探针的设计意图很清楚:worker 要定期心跳,返回一个 OK,告诉平台「我还活着、能正常干活」;心跳不正常,就先把这个 worker 下线、别派活给它。它查出来心跳有成本,问我要不要降一降。我说你改吧。
结果它改成了 runtime --version,返回一个版本号。
我当时就乐了。这哪是降成本,这是把整个设计意图改没了。版本号只能说明这东西装上了,跟它能不能正常干活半毛钱关系没有,等于装好了就直接派活。一个号称工程能力强、对齐能力强的模型,在一个意图这么清晰的纯工程问题上,给我整了个这个。
我说算了,还是用回以前那套,改回去吧。
改回去的过程里又出了件事。它找修复方案的时候跟我说「下面有三个选择」,让我挑。结果它根本没把三个选择列出来,直接来一句「我推荐选项一」。我翻了好几遍,那三个选项压根不存在。
到这儿我基本确定,这模型在这类任务上是真的托不了底了。
于是我把这些活全转给了 GPT 5.5
这几次下来,一个很直接的结果:研究和工程任务,我对 Claude 已经没有信任感了。
信任这东西,建立得慢,垮起来快。早些时候我觉得它还能用,但越用越发现,让它做一遍大概率是浪费时间——不是花几个 token 的事,是最后还得返工。现在这类任务我已经不会考虑它,全用 GPT 5.5。
GPT 5.5 是真的强。编程也好,研究也好,明显高出其他所有模型一截。
这事在我的账号配比上体现得最直接:Codex 这边已经涨到 7 个账号,周限额全部打满,还不够用;Claude 那边就剩一个账号吊着,它老封号,买一个先留着不动。谷歌那个我从来没认真用过。
7 比 1。这比任何跑分都诚实。
但这不是 Claude 一家的事
说到这,得把话往回收一收。如果只是骂 Claude,这篇就没什么意思了。
退一步看,顶尖模型一直在你方唱罢我登场。
6个月前是 Gemini 风头无两,满世界都在讲谷歌多强。这两代下来感觉都差点意思,现在很少有人提了。然后大家又一窝蜂涌向 Claude,觉得它最强,可你看 4.7 到 4.8,是真的拉。这一轮明显是 OpenAI 重新站了起来,GPT 5.5 强得不讲道理。
没有哪一家能一直待在顶上。这也不是 AI 行业独有的剧情。
芯片公司的命,模型公司在用更快的速度重演
之前跟一个朋友聊芯片,他说这行的战略残酷到什么程度。一代芯片方向押错,可能就万劫不复。
英伟达就差点死过。它第一代芯片 NV1,押的是前向纹理映射、四边形那套,结果行业标准走了三角形(微软的 DirectX)。方向一错,产品没人要,公司从大约 100 人裁到 40 人。救命的是世嘉,世嘉本来委托英伟达做主机的图形芯片,后来双方都发现方向不对,但世嘉的入交昭一郎还是把那笔大约 500 万美元的合同款转成了对英伟达的投资。黄仁勋后来说,这给了他们「六个月活命」,刚好撑到 RIVA 128 做出来翻身。
AMD 也一样。2011 年的推土机架构是个战略失误,单核性能拉胯,元气大伤。到 2015 年 7 月,股价一度跌到 1.62 美元,离破产就一步之遥。当年它把 x86 授权给中国的合资公司天津海光、拿约 2.93 亿美元,多少也有补血的意思。后来靠 2017 年的 Zen 架构才缓过来。
这俩现在都是势头猛到不行的公司。但回头看,没人能保证它们一定笑到最后。芯片周期长、投入重,三五年一代,一代走错就是巨大的压力,甚至直接出局。
模型公司比这快多了。不需要一代,可能就几代模型、半年左右的窗口,方向持续出问题,公司就可能下牌桌。
中国模型也轮过一整圈
这事中国模型公司已经完整演过一遍。
最早跑出来、最被认可的第一梯队是智谱。2022 年它的 GLM-130B 是斯坦福 HELM 评测里亚洲唯一入选的大模型,ChatGLM 又是国内最早开源的一批,一时风头无两。
中间掉过队。到 2024 年底,它的旗舰 GLM-4-Plus 在 SuperCLUE 这些公开评测上已经被 DeepSeek-V3、通义千问反超,跌出了最前列。当时外界还挺意外的。
然后 2025 年 1 月 20 号,DeepSeek R1 横空出世。六天后它的 App 冲上美国下载榜第一,连同另外 51 个国家一起登顶;1 月 27 号还直接干崩了英伟达股价,单日蒸发 5890 亿美元,创下美股史上最大的单日单股纪录。那阵子我感觉一批模型厂商都快一蹶不振了。
但智谱没下牌桌。2025 年下半年它换了打法,比较彻底地开源加收缩聚焦,GLM-4.5、GLM-4.6 接连放出来,口碑明显回来了,2026 年 1 月还在港股上市了。从掉队到翻身,靠的就是一直留在桌上。
顺便说一句:顶尖模型还在分工
除了轮流坐庄,现在还多了一件事:分工。
硬核的编程智能体、研究任务,OpenAI 一骑绝尘,强出一大截。Claude 原本的强势领域恰恰是这块,几代下来却没达到预期、开始回退,它的长处反而落到了白领活上:写作、财法、日常事务、文档调研这类。说句公道话,4.8 比 4.7 是好了一点点,更「说人话」了,风格往 4.6 那边靠了回去,执行也准一些,写东西确实还不错。
再往边上是豆包那一类。大家都知道它不干严肃活,但情绪价值拉满,用户基数大得吓人。有个说法是「Claude 是美国版的豆包」,我听着觉得有点好笑,不过仔细想,它说的是另一种分化:有的模型就是擅长陪你聊、给你情绪价值,这也是一类需求。
所以「哪家最强」现在已经不是一个问题了,得看你要它干什么活。
写在最后:别赌谁最强,赌谁还在牌桌上
绕了一圈,我的结论其实挺乐观的。
风水轮流转。别盯着「谁现在强、就会一直强」,也别因为一家暂时拉胯就把它判死刑。只要还留在牌桌上,就有翻盘的机会。智谱翻过来了,英伟达、AMD 当年也都翻过来了。
真正危险的是下牌桌。
Anthropic 这几代确实卡住了,我现在用 Claude 基本只剩白领那点活。它据说在憋下一代旗舰,如果出来还是这个水平,那才真有点悬。倒不是因为某一个模型不好,而是在这种半年一轮的节奏里,连着几代踩不准,就是会被人挤下桌的方式。
但只要它还在桌上,我就不太替它担心。牌桌上的人,本来就是轮流坐庄。
参考资料
- Crucible Moments: Nvidia — Sequoia Capital(黄仁勋本人口述 NV1 押错方向、世嘉 500 万美元、"six months to live")
- NVIDIA CEO Jensen Huang — Acquired Podcast
- AMD 对华合资公司天津海光(含 2.93 亿美元授权费、2019 实体清单)— Tom's Hardware
- AMD–Chinese joint venture — Wikipedia
- How Lisa Su brought AMD back from the brink — CNN Business
- GLM-130B: An Open Bilingual Pre-trained Model(ICLR 2023,斯坦福 HELM 亚洲唯一入选)
- Zhipu AI 开源 GLM-4.5,表现比肩 Claude 与 DeepSeek 最新模型 — The Batch (DeepLearning.AI)
- 市值 579 亿港元!全球大模型第一股智谱港股上市(02513.HK)— 证券时报
- DeepSeek-R1 Release(2025/01/20 官方发布页)— DeepSeek API Docs
- Nvidia's $589 Billion DeepSeek Plunge Is Largest in Market History — Bloomberg
- DeepSeek displaces ChatGPT as the App Store's top app — TechCrunch
