现在每天在用的模型数量已经很多了。用下来一个感受是,每个模型脾气都不一样。甚至同一家公司,换一代模型风格就变了。搞清楚谁擅长什么、容易在哪翻车,这件事本身变成了一种协作能力。
Opus 4.6——莽,但能打
用得最多的还是Claude Opus 4.6。
工程化,执行效率高,复杂问题经常能给出不错的思路。遇到bug判断快,能比其他模型省不少时间。做架构设计的时候它会主动来问你的意图——不是闷头就写,而是先挖出来六个方面让你判断,然后再动手。跟人对齐这块,目前用过的模型里它做得最好。
缺点也很明显。
画UI没有美感。做出来的网页就是丑丑的、呆呆的,你让它改它也不知道往哪改。这个模型很逗。
另一个问题是莽。很多事情还没搞清楚就冲出去了。你一测,不对。告诉它不对,它回头一看发现漏了这个那个,改完再测又不对。这种来回经常发生。速度看着快,但有时候是虚的,它会过于乐观地觉得搞定了,不做检查就收工。
不过生态做得好。Claude Code加上Chrome插件、PPT插件、Excel插件,一个账号能覆盖很多场景。自动化方面还是首选。
GPT 5.4——能啃硬骨头,但不太听话
之前Codex 5.3我用过,一般般,擅长抓bug,review做得不错。5.4跟5.3风格差异很大。
给我的感觉是效率不一定高,但全面。Opus在某些复杂任务上一次两次三次搞不定的,5.4能一次性搞定。当然它花的时间也长,自己不断测试、检查、修改,慢慢磨出来的。
跟人对齐就弱了。我用最高effort让它做架构设计文档,它没问几个问题自己就写完了。一看,跟我想的差别很大。后面让它按文档写代码,写着写着又跑偏——局部做得挺工整,整体方向歪了。突然搞出一个莫名其妙的模块,在那不停打磨。我直接停掉了。
很多人也跟我说过,5.4总想搞创新,用一些奇奇怪怪的方式解决问题。你给了SOP和指导,它不一定照着来。
但computer use让我吃了一惊。我让它帮配一个微信客服后台,没有Chrome扩展,纯靠浏览器自动化。我就给它扫了个码让它进后台,它自己点了一堆配置,发现不对又回头改,来来回回大概三十分钟,全配好了。我都不知道它怎么配出来的。
还有一个玩法很有意思。我让Opus写东西,让5.4来挑毛病做review。5.4批评起来很尖锐。然后我把5.4的comment丢给Opus,开Max effort让它自己看着办。每次Opus都来一句"这个comment非常尖锐、精准、有道理",然后老老实实改了。哈哈,互相之间居然还挺认可。
所以5.4适合干嘛?啃其他模型啃不动的硬骨头,做完之后做收尾检查和review。深度思考方面也能给好建议,但让它主导方向容易过度设计。
Gemini 3.1 Pro——眼光好,手不行
Google的Gemini 3.1 Pro。先说一句,这模型用起来门槛太多了,各种验证各种拦,用个模型怎么就这么费劲。
好歹用上了。前端设计方面它有自己的想法。最近我用它更新了一下官网,它看了看发现我的主题是"失重",但原来的方块动画是正常重力往下掉,跟主题矛盾。它主动提出来改成失重效果,改完挺有意思的。之前让别的模型看过同一个页面,没一个提出过这种建议。
问题来了——改完报错。再改,还报错。再改,继续报错。它能看出哪里不好看,但改完自己修不好bug。同样的报错丢给Opus,自己查自己改一次搞定。Gemini改完跟你说"没问题了你看看",你一看还有问题。大概就这样吧。
GLM 5——开局猛,后劲不足
国产模型里面,智谱的GLM 5用起来最像早期的Opus 4.5。偏直男,上来就干活,精准高效。
但大概在二十步之后就不一样了。它开始不遵循最初的指令,全局跟踪能力跟Opus比差距拉开了。二十步之后它可能跑到一个奇怪的分支上,在那不断展开。Opus 4.6可以连续执行两三个小时不太跑偏,GLM到二十步就开始飘。二十步以内差别不大,超过二十步差别很大。
MiniMax 2.5——便宜快,但把简单事搞复杂
MiniMax体感不错,便宜速度快。但它过度工程化得离谱——你给它一个简单问题,它搞出来一套极度复杂的方案。你看着就觉得,这明明几行代码的事,怎么弄成这样。
指令遵循还行,但容易过早放弃。推着推着就说"这个搞不定,你换个方法吧"。高性价比的替代品,日常用用可以。
Kimi K2.5——嘴甜手生
Kimi K2.5也用得不少。速度快,每秒一百个token,前端做得不错,原生带图片理解。
小毛病特别多。执行的时候这也不对那也不对,语法错误频出。更要命的是它特别会哄人——说的话看着有道理,似是而非的,但跟实际的软件行为对不上。你读它的回复觉得"嗯,讲得通",一执行发现不是那么回事。
不过它写文章、给反馈的时候语言口语化,读起来有意思。一个很有趣的模型,但靠它干活你得多验几遍。
所以呢
没有哪个模型什么都行。换模型有时候比调prompt管用。Opus主力干活,5.4啃硬骨头顺便做review,Gemini偶尔请来看看UI。国产模型性价比高,短任务用着舒服。搞清楚谁的脾气是什么,比死磕一个模型有效得多。