AI模型评测强化学习思考模型还在变强,但「最强」已经没有标准答案一个朋友用模型做小工具,觉得已经够牛了;任务一复杂,就开始反复被告知「我搞定了」但其实没搞定。这背后是一个正在发生的分叉:benchmark 分数挤在天花板、彼此快测不出差异,真实体感却越拉越开。会解最难的题、能可靠办成一件糙活、会探索没有标准答案的问题,正变成三种不同的能力。而最要紧的那一维,恰恰最难测、也最难练。2026年6月3日6 分钟阅读