跳转到主内容
博客
模型还在变强,但「最强」已经没有标准答案

模型还在变强,但「最强」已经没有标准答案

一个朋友用模型做小工具,觉得已经够牛了;任务一复杂,就开始反复被告知「我搞定了」但其实没搞定。这背后是一个正在发生的分叉:benchmark 分数挤在天花板、彼此快测不出差异,真实体感却越拉越开。会解最难的题、能可靠办成一件糙活、会探索没有标准答案的问题,正变成三种不同的能力。而最要紧的那一维,恰恰最难测、也最难练。

关嘉伟关嘉伟6 分钟阅读
分享:

六月预计又是一拨密集模型发布。Opus 4.8 五月底刚出,MiniMax 的 M3 这两天也放了出来,GPT 5.6 据说在路上,DeepSeek 下一版也有人在等。预计间隔几天就会冒一个新模型,挺热闹。

但这两天我一直在琢磨的,是一个朋友用模型的经历。

他一开始拿模型做点小东西,写写网页、做点小工具小插件。上手那阵子特别兴奋,跟我说现在的模型太神了,随手挑了个国产的不错的模型,就觉得够用得不得了,甚至有点想不出来模型还能往哪儿强,已经这么好使了。

后来他的活越做越复杂。从小工具走到想做个自动剪辑的东西,做视频裁剪那一类。问题就来了。

模型跟说他搞定了。他说行,一试,不行。过会儿又说这回真搞定了,再一试,还是不行。来回好几轮。他自己也拿不准了:一方面觉得是自己跟模型协作的功夫在长进,得多给指导、换着法儿让它试;另一方面又开始怀疑,是不是模型本身不行,要不要干脆换个 Claude Opus这种模型试试。

这个过程特别典型。它背后藏着一件很多人还没反应过来的事:模型的强弱,正在沿不同方向分叉。单看一个分数,已经说不清了。

分数挤在天花板,体感却越拉越开

先看现在的怪现状:主流那些 benchmark,顶尖模型的分高得吓人,彼此还挤在很窄的一段里。

举个例子。GPQA 是一套博士级难度的题,难到什么程度?请来的博士专家自己做,正确率也就六成五上下。可现在顶尖模型在上面普遍刷到九成二到九成四,挤成一团。MMLU 那种更老的,大家早就普遍超过九成。难题不再难,分数顶到天花板,模型跟模型之间就拉不开了。

这事逼得做评测的人只能不停造更难的题。Humanity's Last Exam 这套新评测,官方说得很直白:就是因为模型在 MMLU 这些上已经超过九成、旧题不够用了,才另起炉灶。也有研究把六十个主流评测过了一遍,结论是其中近一半已经高度饱和,顶尖模型在上面「统计意义上已经无法区分」。

可你真拿来用,体感差异大得离谱。我上一篇刚写过,Opus 4.8 在我手上的工程和研究任务上怎么连着让我失望,这些活后来全转给了 GPT 5.5。要只看分数,这俩贴得很近;手上一过,天壤之别。

ARC-AGI 这套就很典型。旧的那一代,顶尖模型已经刷到九成六、饱和了。换成更难的 ARC-AGI-2,同一批模型立刻原形毕露:GPT 5.5 还能有八成五,Opus 4.8 直接掉到七成出头。再换成要它真去交互、去探索的 ARC-AGI-3,几乎全员归零。

所以 benchmark 还是有用的,只是「做人能定义、能判对错的题」这件事本身,越来越难把模型区分开了。为什么会这样,得往训练里看一眼。

会解最难的题,和能可靠办成一件糙活

现在让模型变强的主力打法,叫「可验证奖励」。说白了就是,挑那些有标准答案、机器能自动判对错的难题,拿来做强化学习。数学、代码最典型,答对给分,答错给零,反复练。

DeepSeek-R1 的论文写得很清楚:数学题用规则去验,代码直接丢进编译器跑测试用例。他们还特意说明,没用那种神经网络打分的奖励模型,因为那玩意儿容易被模型钻空子。OpenAI 的 o 系列也是这个路子。这套打法非常有效,模型解难题的本事就是这么练上去的。

但它有个特点:它擅长的,是把「人能定义出来、又能判对错的最难问题」往死里解。这跟另一种能力是两码事:给你一个模糊的、没那么难但很现实的活,一次就可靠地办成。

我朋友那个剪辑工具,就是后一种。任务不算极难,但意图是模糊的,得自己拆解,还得一把办利索。一个能解奥数题的模型,未必能干净利落地把这种糙活一次办成。它可能绕来绕去,要跟你对齐三遍,最后还来一句「我搞定了」,其实没搞定。反过来,一个很会办糙活的模型,你丢给它一道极难的题,它也可能当场歇菜。

这是两个方向的能力,各走各的,没法摆在一条直线上比高低。

麻烦在于,九成的人日常要的是后者——把一个说不太清楚的活,可靠、省心地办成。可我们给模型排名用的那个分数,量的几乎全是前者。「分数最高」和「我用着最顺手」对不上,太正常了。

还有一维,叫探索

前面那两种,好歹都还在「有标准答案」的世界里:要么解一道能判分的难题,要么办一件能验收的活。真正难的是第三种。

我朋友卡住的时候,我想到的是另一类问题。就像开车到一个路口,前面红绿灯,你是直行,还是从中间绕过去。没有标准答案,得在模糊里自己找方向。探索一片人们还没定义清楚、甚至根本不知道答案的领域,是另一种能力。

这种能力,benchmark 根本测不了。评测的前提就是有标准答案、能判对错;可探索这件事根本没有对错可言,只有效率高低:能不能在一片模糊里捞到点新东西,再拿它往前走,拱出一个原来没有的边界。

它也恰恰是「可验证奖励」那套打法的盲区。已经有研究指出,开放式的、没有唯一答案的任务,因为压根没有一个明确的标准答案,连奖励都没法构造,这套方法使不上劲。甚至有人发现,这种练法非但不一定让模型长出新本事,反而可能把它的探索面收窄,能力上限被底座模型死死卡住。

结果就是,一个很会探索的模型,你把它扔进标准答案清清楚楚的笼子里,它可能显得有点傻;一个刷题刷得飞起的模型,可能压根不具备探索的能力。我自己的体感,GPT 和 Claude 在这件事上有最明显的区别。

而这一维,偏偏最要紧。因为真正有价值的事,一开始往往都没有标准答案。可它最难测,也最难练。

这事,聊天时代已经演过一遍

模型能力沿着维度分叉、再往下分层,不是头一回。聊天机器人那阵子,完整演过一遍。

那会儿大家一度也觉得,最大的模型就是最强的。但很快发现,单论聊天,最大的模型并没好到哪去。LMSYS 那个模型对战榜,2023年就专门写过一节,叫「小模型很能打」:一个 13B 的 Vicuna 排进了前五,Elo 分甚至压过谷歌的 PaLM 2;7B 的也能挤进前十,跟参数翻一倍的模型打得有来有回。后来也陆陆续续有研究是这个意思,把模型从几千万参数一路堆到千亿、再堆到 GPT-4 这一档,在一些偏软的任务上,提升很快就见顶,几十亿参数的小模型跟前沿模型差不太多。

翻译过来就是:聊天、陪聊这种事,规模的边际收益很低。几十 B 就够了,往上堆到千亿,纯属浪费。

于是市场自己就分了家。要情绪价值、要陪你聊两句,一个不大但会说人话的模型就够;真要做严肃的 research、做硬核的工程,才轮得到顶级模型上场。模型按用途,分出了不同的性价比档位。

今天这一轮,是同样的剧情,在更高的能力层级上重演。

写在最后:别问哪个最强,先问你要哪一维

绕回我朋友的纠结——「要不要换个更强的模型」。其实他问错了问题。

没有哪个「更强」,能同时把解难题、办糙活、搞探索全包圆。这三件事,正在分到不同的模型身上去。

新一代模型当然还在拼命往前走。但它们辛苦争来的那点进步,越来越多落在「人能定义、能判分的最难问题」上,而这恰恰是大多数人感知不到的地方。于是你会看到一种割裂:榜单上一代更比一代强,可大多数人只觉得「早就够用了,看不出来哪儿更强」。两边都没说错。因为他们要的,根本不是同一维的能力。

所以别再笼统地问「哪个模型最强」。先问清楚,你要它干哪一维的活:解一道有答案的难题,办一件没说清的糙活,还是陪你去趟一件根本没人知道答案的事。

「最强」这个词,正在变成一个没有标准答案的问题。


参考资料

模型发布与时间线

benchmark 饱和

可验证奖励,和它的边界

聊天时代的小模型

推荐阅读

订阅博客更新

新文章发布时第一时间通知你,不会发送垃圾邮件。

仅用于博客更新通知,随时可以取消订阅。

评论

或匿名评论
0/2000