跳转到主内容
博客
Claude 4.8 让我失望,但这不是 Claude 一家的事

Claude 4.8 让我失望,但这不是 Claude 一家的事

Opus 4.8 在研究和工程任务上连着让我失望,这些活我全转给了 GPT 5.5。但复盘下来,这不是 Claude 一家的问题。从英伟达、AMD 差点破产,到智谱掉队又翻身,顶尖模型一直在风水轮流转。别赌谁最强,赌谁还在牌桌上。

关嘉伟关嘉伟6 分钟阅读
分享:

Claude 的 Opus 4.8 出来那天,我还挺兴奋的。

之前用 Opus,我一直觉得它工程能力不错,宏观分析、对齐意图是强项。4.8 发布说明里提的几个点也对我胃口,于是赶在手上几个复杂任务上都让它试了试。

结果是连着的失望。具体说几件。

开局像模像样,越跑越离谱

正好那阵子我 Codex 的额度用光了,想着 4.8 各方面看着也不差,就拿它跑一个研究型任务,用了那个很酷炫的功能,叫 ultracode,号称 dynamic workflow,能自动编排超长程任务。

开局确实像模像样。做了一堆检查,搭好 set up,看着挺靠谱。这是 Claude Code 一贯的样子,开头总让你觉得很有希望。

然后我让它跑了差不多一天一夜。

这任务本身是要优化一个性能指标,起步很低,吞吐大概每秒 0.1 个 token。它优化了半天,从 0.1 提到 0.15,就开始报喜了:你看我提升了 50%,做了这么多工作,取得了多大的成果。把前面那点简单 set up 反复拎出来邀功,洋洋洒洒写了一堆。

问题是,0.1 到 0.15 这个区间,用「倍数」去理解问题本身就是错的。

性能低到这个程度,说明方向压根没对。你得用绝对值去看,0.15 token/s 到底是个什么概念,才知道错得有多离谱。在一个根本跑不起来的设定里庆祝「提升了 50%」,跟在沉船上庆祝舀出去两桶水没多大区别。

后来回头看,它记录的那一堆文档、所谓的成果,基本全要扔。方向是歪的,全 freeze 掉重来。

这个我倒不算最意外。Claude 给我的印象一直是宏观能力还行、擅长分析和对齐,但具体执行、尤其是研究任务的执行,容易出问题。真正让我警觉的是后面那个工程任务。

一个纯工程问题,它在胡闹

那是个云上的服务,一个探针报错,我让它看看错在哪、顺手修一下。不算复杂。

它的几个行为把我看懵了。

第一,它在分析过程里莫名其妙开始数数。直接让机器 echo 一串数字,我盯着屏幕,大概十几个。我到现在没看懂这是在干嘛,纯纯烧 token。

第二个更离谱。这个探针的设计意图很清楚:worker 要定期心跳,返回一个 OK,告诉平台「我还活着、能正常干活」;心跳不正常,就先把这个 worker 下线、别派活给它。它查出来心跳有成本,问我要不要降一降。我说你改吧。

结果它改成了 runtime --version,返回一个版本号。

我当时就乐了。这哪是降成本,这是把整个设计意图改没了。版本号只能说明这东西装上了,跟它能不能正常干活半毛钱关系没有,等于装好了就直接派活。一个号称工程能力强、对齐能力强的模型,在一个意图这么清晰的纯工程问题上,给我整了个这个。

我说算了,还是用回以前那套,改回去吧。

改回去的过程里又出了件事。它找修复方案的时候跟我说「下面有三个选择」,让我挑。结果它根本没把三个选择列出来,直接来一句「我推荐选项一」。我翻了好几遍,那三个选项压根不存在。

到这儿我基本确定,这模型在这类任务上是真的托不了底了。

于是我把这些活全转给了 GPT 5.5

这几次下来,一个很直接的结果:研究和工程任务,我对 Claude 已经没有信任感了。

信任这东西,建立得慢,垮起来快。早些时候我觉得它还能用,但越用越发现,让它做一遍大概率是浪费时间——不是花几个 token 的事,是最后还得返工。现在这类任务我已经不会考虑它,全用 GPT 5.5。

GPT 5.5 是真的强。编程也好,研究也好,明显高出其他所有模型一截。

这事在我的账号配比上体现得最直接:Codex 这边已经涨到 7 个账号,周限额全部打满,还不够用;Claude 那边就剩一个账号吊着,它老封号,买一个先留着不动。谷歌那个我从来没认真用过。

7 比 1。这比任何跑分都诚实。

但这不是 Claude 一家的事

说到这,得把话往回收一收。如果只是骂 Claude,这篇就没什么意思了。

退一步看,顶尖模型一直在你方唱罢我登场。

6个月前是 Gemini 风头无两,满世界都在讲谷歌多强。这两代下来感觉都差点意思,现在很少有人提了。然后大家又一窝蜂涌向 Claude,觉得它最强,可你看 4.7 到 4.8,是真的拉。这一轮明显是 OpenAI 重新站了起来,GPT 5.5 强得不讲道理。

没有哪一家能一直待在顶上。这也不是 AI 行业独有的剧情。

芯片公司的命,模型公司在用更快的速度重演

之前跟一个朋友聊芯片,他说这行的战略残酷到什么程度。一代芯片方向押错,可能就万劫不复。

英伟达就差点死过。它第一代芯片 NV1,押的是前向纹理映射、四边形那套,结果行业标准走了三角形(微软的 DirectX)。方向一错,产品没人要,公司从大约 100 人裁到 40 人。救命的是世嘉,世嘉本来委托英伟达做主机的图形芯片,后来双方都发现方向不对,但世嘉的入交昭一郎还是把那笔大约 500 万美元的合同款转成了对英伟达的投资。黄仁勋后来说,这给了他们「六个月活命」,刚好撑到 RIVA 128 做出来翻身。

AMD 也一样。2011 年的推土机架构是个战略失误,单核性能拉胯,元气大伤。到 2015 年 7 月,股价一度跌到 1.62 美元,离破产就一步之遥。当年它把 x86 授权给中国的合资公司天津海光、拿约 2.93 亿美元,多少也有补血的意思。后来靠 2017 年的 Zen 架构才缓过来。

这俩现在都是势头猛到不行的公司。但回头看,没人能保证它们一定笑到最后。芯片周期长、投入重,三五年一代,一代走错就是巨大的压力,甚至直接出局。

模型公司比这快多了。不需要一代,可能就几代模型、半年左右的窗口,方向持续出问题,公司就可能下牌桌。

中国模型也轮过一整圈

这事中国模型公司已经完整演过一遍。

最早跑出来、最被认可的第一梯队是智谱。2022 年它的 GLM-130B 是斯坦福 HELM 评测里亚洲唯一入选的大模型,ChatGLM 又是国内最早开源的一批,一时风头无两。

中间掉过队。到 2024 年底,它的旗舰 GLM-4-Plus 在 SuperCLUE 这些公开评测上已经被 DeepSeek-V3、通义千问反超,跌出了最前列。当时外界还挺意外的。

然后 2025 年 1 月 20 号,DeepSeek R1 横空出世。六天后它的 App 冲上美国下载榜第一,连同另外 51 个国家一起登顶;1 月 27 号还直接干崩了英伟达股价,单日蒸发 5890 亿美元,创下美股史上最大的单日单股纪录。那阵子我感觉一批模型厂商都快一蹶不振了。

但智谱没下牌桌。2025 年下半年它换了打法,比较彻底地开源加收缩聚焦,GLM-4.5、GLM-4.6 接连放出来,口碑明显回来了,2026 年 1 月还在港股上市了。从掉队到翻身,靠的就是一直留在桌上。

顺便说一句:顶尖模型还在分工

除了轮流坐庄,现在还多了一件事:分工。

硬核的编程智能体、研究任务,OpenAI 一骑绝尘,强出一大截。Claude 原本的强势领域恰恰是这块,几代下来却没达到预期、开始回退,它的长处反而落到了白领活上:写作、财法、日常事务、文档调研这类。说句公道话,4.8 比 4.7 是好了一点点,更「说人话」了,风格往 4.6 那边靠了回去,执行也准一些,写东西确实还不错。

再往边上是豆包那一类。大家都知道它不干严肃活,但情绪价值拉满,用户基数大得吓人。有个说法是「Claude 是美国版的豆包」,我听着觉得有点好笑,不过仔细想,它说的是另一种分化:有的模型就是擅长陪你聊、给你情绪价值,这也是一类需求。

所以「哪家最强」现在已经不是一个问题了,得看你要它干什么活。

写在最后:别赌谁最强,赌谁还在牌桌上

绕了一圈,我的结论其实挺乐观的。

风水轮流转。别盯着「谁现在强、就会一直强」,也别因为一家暂时拉胯就把它判死刑。只要还留在牌桌上,就有翻盘的机会。智谱翻过来了,英伟达、AMD 当年也都翻过来了。

真正危险的是下牌桌。

Anthropic 这几代确实卡住了,我现在用 Claude 基本只剩白领那点活。它据说在憋下一代旗舰,如果出来还是这个水平,那才真有点悬。倒不是因为某一个模型不好,而是在这种半年一轮的节奏里,连着几代踩不准,就是会被人挤下桌的方式。

但只要它还在桌上,我就不太替它担心。牌桌上的人,本来就是轮流坐庄。


参考资料

推荐阅读

订阅博客更新

新文章发布时第一时间通知你,不会发送垃圾邮件。

仅用于博客更新通知,随时可以取消订阅。

评论

或匿名评论
0/2000