Claude 4.8 让我失望，但这不是 Claude 一家的事

Claude 的 Opus 4.8 出来那天，我还挺兴奋的。

之前用 Opus，我一直觉得它工程能力不错，宏观分析、对齐意图是强项。4.8 发布说明里提的几个点也对我胃口，于是赶在手上几个复杂任务上都让它试了试。

结果是连着的失望。具体说几件。

开局像模像样，越跑越离谱

正好那阵子我 Codex 的额度用光了，想着 4.8 各方面看着也不差，就拿它跑一个研究型任务，用了那个很酷炫的功能，叫 ultracode，号称 dynamic workflow，能自动编排超长程任务。

开局确实像模像样。做了一堆检查，搭好 set up，看着挺靠谱。这是 Claude Code 一贯的样子，开头总让你觉得很有希望。

然后我让它跑了差不多一天一夜。

这任务本身是要优化一个性能指标，起步很低，吞吐大概每秒 0.1 个 token。它优化了半天，从 0.1 提到 0.15，就开始报喜了：你看我提升了 50%，做了这么多工作，取得了多大的成果。把前面那点简单 set up 反复拎出来邀功，洋洋洒洒写了一堆。

问题是，0.1 到 0.15 这个区间，用「倍数」去理解问题本身就是错的。

性能低到这个程度，说明方向压根没对。你得用绝对值去看，0.15 token/s 到底是个什么概念，才知道错得有多离谱。在一个根本跑不起来的设定里庆祝「提升了 50%」，跟在沉船上庆祝舀出去两桶水没多大区别。

后来回头看，它记录的那一堆文档、所谓的成果，基本全要扔。方向是歪的，全 freeze 掉重来。

这个我倒不算最意外。Claude 给我的印象一直是宏观能力还行、擅长分析和对齐，但具体执行、尤其是研究任务的执行，容易出问题。真正让我警觉的是后面那个工程任务。

一个纯工程问题，它在胡闹

那是个云上的服务，一个探针报错，我让它看看错在哪、顺手修一下。不算复杂。

它的几个行为把我看懵了。

第一，它在分析过程里莫名其妙开始数数。直接让机器 echo 一串数字，我盯着屏幕，大概十几个。我到现在没看懂这是在干嘛，纯纯烧 token。

第二个更离谱。这个探针的设计意图很清楚：worker 要定期心跳，返回一个 OK，告诉平台「我还活着、能正常干活」；心跳不正常，就先把这个 worker 下线、别派活给它。它查出来心跳有成本，问我要不要降一降。我说你改吧。

结果它改成了 runtime --version，返回一个版本号。

我当时就乐了。这哪是降成本，这是把整个设计意图改没了。版本号只能说明这东西装上了，跟它能不能正常干活半毛钱关系没有，等于装好了就直接派活。一个号称工程能力强、对齐能力强的模型，在一个意图这么清晰的纯工程问题上，给我整了个这个。

我说算了，还是用回以前那套，改回去吧。

改回去的过程里又出了件事。它找修复方案的时候跟我说「下面有三个选择」，让我挑。结果它根本没把三个选择列出来，直接来一句「我推荐选项一」。我翻了好几遍，那三个选项压根不存在。

到这儿我基本确定，这模型在这类任务上是真的托不了底了。

于是我把这些活全转给了 GPT 5.5

这几次下来，一个很直接的结果：研究和工程任务，我对 Claude 已经没有信任感了。

信任这东西，建立得慢，垮起来快。早些时候我觉得它还能用，但越用越发现，让它做一遍大概率是浪费时间——不是花几个 token 的事，是最后还得返工。现在这类任务我已经不会考虑它，全用 GPT 5.5。

GPT 5.5 是真的强。编程也好，研究也好，明显高出其他所有模型一截。

这事在我的账号配比上体现得最直接：Codex 这边已经涨到 7 个账号，周限额全部打满，还不够用；Claude 那边就剩一个账号吊着，它老封号，买一个先留着不动。谷歌那个我从来没认真用过。

7 比 1。这比任何跑分都诚实。

但这不是 Claude 一家的事

说到这，得把话往回收一收。如果只是骂 Claude，这篇就没什么意思了。

退一步看，顶尖模型一直在你方唱罢我登场。

6个月前是 Gemini 风头无两，满世界都在讲谷歌多强。这两代下来感觉都差点意思，现在很少有人提了。然后大家又一窝蜂涌向 Claude，觉得它最强，可你看 4.7 到 4.8，是真的拉。这一轮明显是 OpenAI 重新站了起来，GPT 5.5 强得不讲道理。

没有哪一家能一直待在顶上。这也不是 AI 行业独有的剧情。

芯片公司的命，模型公司在用更快的速度重演

之前跟一个朋友聊芯片，他说这行的战略残酷到什么程度。一代芯片方向押错，可能就万劫不复。

英伟达就差点死过。它第一代芯片 NV1，押的是前向纹理映射、四边形那套，结果行业标准走了三角形（微软的 DirectX）。方向一错，产品没人要，公司从大约 100 人裁到 40 人。救命的是世嘉，世嘉本来委托英伟达做主机的图形芯片，后来双方都发现方向不对，但世嘉的入交昭一郎还是把那笔大约 500 万美元的合同款转成了对英伟达的投资。黄仁勋后来说，这给了他们「六个月活命」，刚好撑到 RIVA 128 做出来翻身。

AMD 也一样。2011 年的推土机架构是个战略失误，单核性能拉胯，元气大伤。到 2015 年 7 月，股价一度跌到 1.62 美元，离破产就一步之遥。当年它把 x86 授权给中国的合资公司天津海光、拿约 2.93 亿美元，多少也有补血的意思。后来靠 2017 年的 Zen 架构才缓过来。

这俩现在都是势头猛到不行的公司。但回头看，没人能保证它们一定笑到最后。芯片周期长、投入重，三五年一代，一代走错就是巨大的压力，甚至直接出局。

模型公司比这快多了。不需要一代，可能就几代模型、半年左右的窗口，方向持续出问题，公司就可能下牌桌。

中国模型也轮过一整圈

这事中国模型公司已经完整演过一遍。

最早跑出来、最被认可的第一梯队是智谱。2022 年它的 GLM-130B 是斯坦福 HELM 评测里亚洲唯一入选的大模型，ChatGLM 又是国内最早开源的一批，一时风头无两。

中间掉过队。到 2024 年底，它的旗舰 GLM-4-Plus 在 SuperCLUE 这些公开评测上已经被 DeepSeek-V3、通义千问反超，跌出了最前列。当时外界还挺意外的。

然后 2025 年 1 月 20 号，DeepSeek R1 横空出世。六天后它的 App 冲上美国下载榜第一，连同另外 51 个国家一起登顶；1 月 27 号还直接干崩了英伟达股价，单日蒸发 5890 亿美元，创下美股史上最大的单日单股纪录。那阵子我感觉一批模型厂商都快一蹶不振了。

但智谱没下牌桌。2025 年下半年它换了打法，比较彻底地开源加收缩聚焦，GLM-4.5、GLM-4.6 接连放出来，口碑明显回来了，2026 年 1 月还在港股上市了。从掉队到翻身，靠的就是一直留在桌上。

顺便说一句：顶尖模型还在分工

除了轮流坐庄，现在还多了一件事：分工。

硬核的编程智能体、研究任务，OpenAI 一骑绝尘，强出一大截。Claude 原本的强势领域恰恰是这块，几代下来却没达到预期、开始回退，它的长处反而落到了白领活上：写作、财法、日常事务、文档调研这类。说句公道话，4.8 比 4.7 是好了一点点，更「说人话」了，风格往 4.6 那边靠了回去，执行也准一些，写东西确实还不错。

再往边上是豆包那一类。大家都知道它不干严肃活，但情绪价值拉满，用户基数大得吓人。有个说法是「Claude 是美国版的豆包」，我听着觉得有点好笑，不过仔细想，它说的是另一种分化：有的模型就是擅长陪你聊、给你情绪价值，这也是一类需求。

所以「哪家最强」现在已经不是一个问题了，得看你要它干什么活。

写在最后：别赌谁最强，赌谁还在牌桌上

绕了一圈，我的结论其实挺乐观的。

风水轮流转。别盯着「谁现在强、就会一直强」，也别因为一家暂时拉胯就把它判死刑。只要还留在牌桌上，就有翻盘的机会。智谱翻过来了，英伟达、AMD 当年也都翻过来了。

真正危险的是下牌桌。

Anthropic 这几代确实卡住了，我现在用 Claude 基本只剩白领那点活。它据说在憋下一代旗舰，如果出来还是这个水平，那才真有点悬。倒不是因为某一个模型不好，而是在这种半年一轮的节奏里，连着几代踩不准，就是会被人挤下桌的方式。

但只要它还在桌上，我就不太替它担心。牌桌上的人，本来就是轮流坐庄。