六个模型，六种脾气

现在每天在用的模型数量已经很多了。用下来一个感受是，每个模型脾气都不一样。甚至同一家公司，换一代模型风格就变了。搞清楚谁擅长什么、容易在哪翻车，这件事本身变成了一种协作能力。

Opus 4.6——莽，但能打

用得最多的还是 Claude Opus 4.6。

工程化，执行效率高，复杂问题经常能给出不错的思路。遇到bug判断快，能比其他模型省不少时间。做架构设计的时候它会主动来问你的意图——不是闷头就写，而是先挖出来六个方面让你判断，然后再动手。跟人对齐这块，目前用过的模型里它做得最好。

缺点也很明显。

画UI没有美感。做出来的网页就是丑丑的、呆呆的，你让它改它也不知道往哪改。这个模型很逗。

另一个问题是莽。很多事情还没搞清楚就冲出去了。你一测，不对。告诉它不对，它回头一看发现漏了这个那个，改完再测又不对。这种来回经常发生。速度看着快，但有时候是虚的，它会过于乐观地觉得搞定了，不做检查就收工。

不过生态做得好。Claude Code加上Chrome插件、PPT插件、Excel插件，一个账号能覆盖很多场景。自动化方面还是首选。

之前Codex 5.3我用过，一般般，擅长抓bug，review做得不错。5.4跟5.3风格差异很大。

给我的感觉是效率不一定高，但全面。Opus在某些复杂任务上一次两次三次搞不定的，5.4能一次性搞定。当然它花的时间也长，自己不断测试、检查、修改，慢慢磨出来的。

跟人对齐就弱了。我用最高effort让它做架构设计文档，它没问几个问题自己就写完了。一看，跟我想的差别很大。后面让它按文档写代码，写着写着又跑偏——局部做得挺工整，整体方向歪了。突然搞出一个莫名其妙的模块，在那不停打磨。我直接停掉了。

很多人也跟我说过，5.4总想搞创新，用一些奇奇怪怪的方式解决问题。你给了SOP和指导，它不一定照着来。

但computer use让我吃了一惊。我让它帮配一个微信客服后台，没有Chrome扩展，纯靠浏览器自动化。我就给它扫了个码让它进后台，它自己点了一堆配置，发现不对又回头改，来来回回大概三十分钟，全配好了。我都不知道它怎么配出来的。

还有一个玩法很有意思。我让Opus写东西，让5.4来挑毛病做review。5.4批评起来很尖锐。然后我把5.4的comment丢给Opus，开Max effort让它自己看着办。每次Opus都来一句"这个comment非常尖锐、精准、有道理"，然后老老实实改了。哈哈，互相之间居然还挺认可。

所以5.4适合干嘛？啃其他模型啃不动的硬骨头，做完之后做收尾检查和review。深度思考方面也能给好建议，但让它主导方向容易过度设计。

Google的Gemini 3.1 Pro。先说一句，这模型用起来门槛太多了，各种验证各种拦，用个模型怎么就这么费劲。

好歹用上了。前端设计方面它有自己的想法。最近我用它更新了一下官网，它看了看发现我的主题是"失重"，但原来的方块动画是正常重力往下掉，跟主题矛盾。它主动提出来改成失重效果，改完挺有意思的。之前让别的模型看过同一个页面，没一个提出过这种建议。

问题来了——改完报错。再改，还报错。再改，继续报错。它能看出哪里不好看，但改完自己修不好bug。同样的报错丢给Opus，自己查自己改一次搞定。Gemini改完跟你说"没问题了你看看"，你一看还有问题。大概就这样吧。

国产模型里面，智谱的GLM 5用起来最像早期的Opus 4.5。偏直男，上来就干活，精准高效。

但大概在二十步之后就不一样了。它开始不遵循最初的指令，全局跟踪能力跟Opus比差距拉开了。二十步之后它可能跑到一个奇怪的分支上，在那不断展开。Opus 4.6可以连续执行两三个小时不太跑偏，GLM到二十步就开始飘。二十步以内差别不大，超过二十步差别很大。

MiniMax体感不错，便宜速度快。但它过度工程化得离谱——你给它一个简单问题，它搞出来一套极度复杂的方案。你看着就觉得，这明明几行代码的事，怎么弄成这样。

指令遵循还行，但容易过早放弃。推着推着就说"这个搞不定，你换个方法吧"。高性价比的替代品，日常用用可以。

Kimi K2.5也用得不少。速度快，每秒一百个token，前端做得不错，原生带图片理解。

小毛病特别多。执行的时候这也不对那也不对，语法错误频出。更要命的是它特别会哄人——说的话看着有道理，似是而非的，但跟实际的软件行为对不上。你读它的回复觉得"嗯，讲得通"，一执行发现不是那么回事。

不过它写文章、给反馈的时候语言口语化，读起来有意思。一个很有趣的模型，但靠它干活你得多验几遍。

没有哪个模型什么都行。换模型有时候比调prompt管用。Opus主力干活，5.4啃硬骨头顺便做review，Gemini偶尔请来看看UI。国产模型性价比高，短任务用着舒服。搞清楚谁的脾气是什么，比死磕一个模型有效得多。