guanjiawei.ai关嘉伟的个人主页

所有文章

一个朋友用模型做小工具，觉得已经够牛了；任务一复杂，就开始反复被告知「我搞定了」但其实没搞定。这背后是一个正在发生的分叉：benchmark 分数挤在天花板、彼此快测不出差异，真实体感却越拉越开。会解最难的题、能可靠办成一件糙活、会探索没有标准答案的问题，正变成三种不同的能力。而最要紧的那一维，恰恰最难测、也最难练。

2026年6月3日6 分钟阅读

标签:

模型还在变强，但「最强」已经没有标准答案