模型还在变强，但「最强」已经没有标准答案

六月预计又是一拨密集模型发布。Opus 4.8 五月底刚出，MiniMax 的 M3 这两天也放了出来，GPT 5.6 据说在路上，DeepSeek 下一版也有人在等。预计间隔几天就会冒一个新模型，挺热闹。

但这两天我一直在琢磨的，是一个朋友用模型的经历。

他一开始拿模型做点小东西，写写网页、做点小工具小插件。上手那阵子特别兴奋，跟我说现在的模型太神了，随手挑了个国产的不错的模型，就觉得够用得不得了，甚至有点想不出来模型还能往哪儿强，已经这么好使了。

后来他的活越做越复杂。从小工具走到想做个自动剪辑的东西，做视频裁剪那一类。问题就来了。

模型跟说他搞定了。他说行，一试，不行。过会儿又说这回真搞定了，再一试，还是不行。来回好几轮。他自己也拿不准了：一方面觉得是自己跟模型协作的功夫在长进，得多给指导、换着法儿让它试；另一方面又开始怀疑，是不是模型本身不行，要不要干脆换个 Claude Opus这种模型试试。

这个过程特别典型。它背后藏着一件很多人还没反应过来的事：模型的强弱，正在沿不同方向分叉。单看一个分数，已经说不清了。

分数挤在天花板，体感却越拉越开

先看现在的怪现状：主流那些 benchmark，顶尖模型的分高得吓人，彼此还挤在很窄的一段里。

举个例子。GPQA 是一套博士级难度的题，难到什么程度？请来的博士专家自己做，正确率也就六成五上下。可现在顶尖模型在上面普遍刷到九成二到九成四，挤成一团。MMLU 那种更老的，大家早就普遍超过九成。难题不再难，分数顶到天花板，模型跟模型之间就拉不开了。

这事逼得做评测的人只能不停造更难的题。Humanity's Last Exam 这套新评测，官方说得很直白：就是因为模型在 MMLU 这些上已经超过九成、旧题不够用了，才另起炉灶。也有研究把六十个主流评测过了一遍，结论是其中近一半已经高度饱和，顶尖模型在上面「统计意义上已经无法区分」。

可你真拿来用，体感差异大得离谱。我上一篇刚写过，Opus 4.8 在我手上的工程和研究任务上怎么连着让我失望，这些活后来全转给了 GPT 5.5。要只看分数，这俩贴得很近；手上一过，天壤之别。

ARC-AGI 这套就很典型。旧的那一代，顶尖模型已经刷到九成六、饱和了。换成更难的 ARC-AGI-2，同一批模型立刻原形毕露：GPT 5.5 还能有八成五，Opus 4.8 直接掉到七成出头。再换成要它真去交互、去探索的 ARC-AGI-3，几乎全员归零。

所以 benchmark 还是有用的，只是「做人能定义、能判对错的题」这件事本身，越来越难把模型区分开了。为什么会这样，得往训练里看一眼。

会解最难的题，和能可靠办成一件糙活

现在让模型变强的主力打法，叫「可验证奖励」。说白了就是，挑那些有标准答案、机器能自动判对错的难题，拿来做强化学习。数学、代码最典型，答对给分，答错给零，反复练。

DeepSeek-R1 的论文写得很清楚：数学题用规则去验，代码直接丢进编译器跑测试用例。他们还特意说明，没用那种神经网络打分的奖励模型，因为那玩意儿容易被模型钻空子。OpenAI 的 o 系列也是这个路子。这套打法非常有效，模型解难题的本事就是这么练上去的。

但它有个特点：它擅长的，是把「人能定义出来、又能判对错的最难问题」往死里解。这跟另一种能力是两码事：给你一个模糊的、没那么难但很现实的活，一次就可靠地办成。

我朋友那个剪辑工具，就是后一种。任务不算极难，但意图是模糊的，得自己拆解，还得一把办利索。一个能解奥数题的模型，未必能干净利落地把这种糙活一次办成。它可能绕来绕去，要跟你对齐三遍，最后还来一句「我搞定了」，其实没搞定。反过来，一个很会办糙活的模型，你丢给它一道极难的题，它也可能当场歇菜。

这是两个方向的能力，各走各的，没法摆在一条直线上比高低。

麻烦在于，九成的人日常要的是后者——把一个说不太清楚的活，可靠、省心地办成。可我们给模型排名用的那个分数，量的几乎全是前者。「分数最高」和「我用着最顺手」对不上，太正常了。

还有一维，叫探索

前面那两种，好歹都还在「有标准答案」的世界里：要么解一道能判分的难题，要么办一件能验收的活。真正难的是第三种。

我朋友卡住的时候，我想到的是另一类问题。就像开车到一个路口，前面红绿灯，你是直行，还是从中间绕过去。没有标准答案，得在模糊里自己找方向。探索一片人们还没定义清楚、甚至根本不知道答案的领域，是另一种能力。

这种能力，benchmark 根本测不了。评测的前提就是有标准答案、能判对错；可探索这件事根本没有对错可言，只有效率高低：能不能在一片模糊里捞到点新东西，再拿它往前走，拱出一个原来没有的边界。

它也恰恰是「可验证奖励」那套打法的盲区。已经有研究指出，开放式的、没有唯一答案的任务，因为压根没有一个明确的标准答案，连奖励都没法构造，这套方法使不上劲。甚至有人发现，这种练法非但不一定让模型长出新本事，反而可能把它的探索面收窄，能力上限被底座模型死死卡住。

结果就是，一个很会探索的模型，你把它扔进标准答案清清楚楚的笼子里，它可能显得有点傻；一个刷题刷得飞起的模型，可能压根不具备探索的能力。我自己的体感，GPT 和 Claude 在这件事上有最明显的区别。

而这一维，偏偏最要紧。因为真正有价值的事，一开始往往都没有标准答案。可它最难测，也最难练。

那会儿大家一度也觉得，最大的模型就是最强的。但很快发现，单论聊天，最大的模型并没好到哪去。LMSYS 那个模型对战榜，2023年就专门写过一节，叫「小模型很能打」：一个 13B 的 Vicuna 排进了前五，Elo 分甚至压过谷歌的 PaLM 2；7B 的也能挤进前十，跟参数翻一倍的模型打得有来有回。后来也陆陆续续有研究是这个意思，把模型从几千万参数一路堆到千亿、再堆到 GPT-4 这一档，在一些偏软的任务上，提升很快就见顶，几十亿参数的小模型跟前沿模型差不太多。

翻译过来就是：聊天、陪聊这种事，规模的边际收益很低。几十 B 就够了，往上堆到千亿，纯属浪费。

于是市场自己就分了家。要情绪价值、要陪你聊两句，一个不大但会说人话的模型就够；真要做严肃的 research、做硬核的工程，才轮得到顶级模型上场。模型按用途，分出了不同的性价比档位。

今天这一轮，是同样的剧情，在更高的能力层级上重演。

写在最后：别问哪个最强，先问你要哪一维

绕回我朋友的纠结——「要不要换个更强的模型」。其实他问错了问题。

没有哪个「更强」，能同时把解难题、办糙活、搞探索全包圆。这三件事，正在分到不同的模型身上去。

新一代模型当然还在拼命往前走。但它们辛苦争来的那点进步，越来越多落在「人能定义、能判分的最难问题」上，而这恰恰是大多数人感知不到的地方。于是你会看到一种割裂：榜单上一代更比一代强，可大多数人只觉得「早就够用了，看不出来哪儿更强」。两边都没说错。因为他们要的，根本不是同一维的能力。

所以别再笼统地问「哪个模型最强」。先问清楚，你要它干哪一维的活：解一道有答案的难题，办一件没说清的糙活，还是陪你去趟一件根本没人知道答案的事。

「最强」这个词，正在变成一个没有标准答案的问题。

参考资料

模型发布与时间线

benchmark 饱和

可验证奖励，和它的边界

聊天时代的小模型