最近几个数字串起来看挺有意思。
Sam Altman 在 GPT-5.5 发布之后明显很兴奋。Codex 单周下载量冲到 9000 万。付费用户从 3 月份的 300 万一路推到 4 月底的 400 多万。我自己的体感跟这个对得上。5.5 出来之前,我手里一个 200 美金的 Codex 账号;现在是四个,每月 800 美金。很多人在说 5.5 不该叫 5.5,该叫 GPT-6。我之前发过一句"它不是一个小版本",被这件事印证。
Anthropic 那边更夸张。Dario Amodei 上周接受 CNBC 采访,算过一笔账。他们成立的时候就预判 AI 会 exponential 增长,按"每年 10 倍"做的基础设施准备。今年 Q1 的增长年化下来是 80 倍。年化营收从年初的 90 亿美金跑到四月份的 300 亿。基础设施被打爆,于是他们和 SpaceX 签了一个协议,把 Memphis 那座 Colossus 1 数据中心的 22 万张 GPU 全租下来,给 Claude Pro / Max 用户解锁 5 小时限额。
这是当下的背景。
在这个背景里,我昨天和一个朋友聊了几个小时。他用 AI 很深,会用 Terminal,会基于 OpenClaw 这类开源框架搭东西,在公司里是资深用户。这次有家公司请他过去做 AI 变革的专家,问我该怎么看。
聊完之后我发现,对话里有几个判断值得单独拎出来。
一、看 offer,看的是"能不能无限制用最强的模型"
我跟他说,当前这个时间点,offer 本身不是最重要的事情。你已经走在挺好的位置上了。
真正决定性的,是平台能不能给你接近无限制地使用最顶尖模型的资源,以及足够的自由度去折腾任何你想折腾的方向。
什么意思?像我这种工作年限稍长的,自己有方法绕过资源限制——我可以一个月烧 1000 美金给自己买顶配,自己定方向。但更年轻的、刚有用 AI 热情的,公司还是挺关键的。因为你是在工作时间为别人创造价值。模型不是最好的,你就始终差一线。你能感觉到这个差距,但你抓不到。
底牌没有,去做 AI 变革专家其实很难。
二、别再"用 GPT-5.5 跑 medium effort"了
第二件事我猜得很准。我跟他说,你用 GPT-5.5 的时候,effort 不会开到最高对吧?是不是为了省钱、为了控成本,做"路由",把 effort 压下来?或者直接换成 Kimi、DeepSeek、Minimax?
答案是对的。我认识的人大多数都是这么用的。
这里我觉得有问题。
我自己有个反复试出来的结论。当年 Opus 4.6,把 effort 从 high 降到 medium,同一个模型,准确率从 80% 掉到 30% 左右。模型没换,只是 effort 改了一档,整条工作链的表现就完全不同。那次之后我没再用过 medium effort,Claude 一直走 x high。
GPT 这边从第一天起我都是 x high。原因很简单。如果一个任务 Claude Code 跑得不错,我基本不会再去试 GPT。让我觉得"这玩意确实不一样"的瞬间,都是开到最高 effort 才看到的。5.4 时代就这样,5.5 出来之后这个差异更明显。
所以一句话:当前阶段不要过早优化成本。
算笔账。一个最好的模型,一个账号一个月 200 美金。两个账号给非常充足的用量,单一垂直任务上几乎可以 7*24 连续跑。400 美金一个月,3000 人民币。这个钱比招一个实习生还便宜,但它的产出能接近一个博士级别的研究人员。便宜的那点钱省下来,意义在哪?
我现在一个月给自己花 1000 美金,五个账号轮着用。如果换成 API 调用,按同样的强度大概要 1 万美金。
为什么不去优化?因为你现在不知道最强模型的边界在哪儿。研发的人也不知道,他们没在你的领域试过。这就是未知地带。你要做的是用最强、最贵、最高 effort 的东西去撞这个边界,把它推到极限再说。等它真做不到,你也是确切地知道。
至于"为什么不能像传统软件那样先把成本控住"——等大家对边界都摸清了,到了大规模铺开的阶段,再考虑性价比。当前不在那个阶段。
三、还剩 10 周
朋友问:那时间呢?多花点时间慢慢试不行吗?
我说我帮你算笔时间。
世界现在还没被广泛震撼,是因为顶级模型出得太快、太密、间隔太短。我自己用下来发现一件挺反常识的事。即使是 GPT-5.5、Claude Opus 这种最顶尖的模型,开到最大 effort,把一个有价值的方向跑出来也需要时间。它很快,但没快到"想到就立刻做出来"的程度。它会一步一个脚印地走。原本一个团队几个月做的事,它能压缩到几周。但还是要走步骤。
带入到时间轴:
- GPT-5.5 在 4 月 23 号发布,两周前。
- 那个时间点已经有一批人意识到这次不一样,开始在它上面跑自己最有野心的方向。
- 保守估计 3 个月之内,会有一批东西从想象不到的人、想象不到的方向、想象不到的领域 ship 出来。
3 个月 = 12 周。已经过了 2 周。还有 10 周。
10 周之后,会有一批了不起的成果走进这个世界,让大家意识到"世界不一样了"。这种成果不会等你。10 周后你的市场位置、你的标签、你的论资排辈,都可能要重新算一次。
10 周长吗?不长。它短到不允许你浪费一周去搭一个低效的工作流,或者犹豫用什么工具。
四、不要用 IDE,也不要折腾第三方框架
第三个话题:那我用什么?
我的回答可能会得罪一批人,但我想说清楚。
不要用 IDE。 coding agent 这个场景下,IDE 在我看来就是被淘汰的形态。它对原本不是资深程序员的人尤其不友好。你得花时间学一个对你来说没什么意义的复杂界面,结果 agent 写出来的代码你也看不懂。中间挤一个小小的 Terminal 窗口,这个形态从根上就不顺。
Terminal 这个名字耽误了 Claude Code 和 Codex。 很多人一听 CLI、Terminal,脑子里跳出来的就是"程序员的东西"。但我帮一些零编程基础的朋友装上 Claude Code 和 Codex 之后,没有一个人说"用不明白"。它就是把重要的东西展示给你,不重要的过程压成日志,跟着关键节点判断就行。新手反而比 IDE 上手更快。
有条件的话,不要用 OpenClaw、Hermes 这类第三方框架。 这个有点反常识。我之前确实帮人装过这些。但现在再看,Terminal 加官方 CLI 已经成熟到可以做所有这些框架能做的事,效果还更好。
为什么?因为官方 CLI 是围绕官方模型的 behaviour 定制的。Claude Code 接 Claude 模型,Codex 接 GPT 模型。缓存机制、错误恢复、风险闸门、上下文压缩,这些都是为那一个模型调过的。换成"用 OpenClaw 接 GPT"或者"用 Claude Code 接 Kimi",理论上能跑,实际效果就是差一截。
最近有一个挺火的开源项目可以印证这件事。有人专门为 DeepSeek V4 做了一个 Deep Code CLI,类似 Claude Code 的形态,但只为 DeepSeek 一个模型定制。很多人觉得反常识——中转站不都是"我什么模型都要接"吗?这条路反而是对的。模型有自己的 behaviour,载体围绕它定制,效果和成本都会更好。
五、永远不要用"完全黑盒"的代理
OpenClaw 还有一个我觉得很危险的"优点"。它可以远程下发任务、出结果,过程不用看。听起来很爽。
对一部分人来说这是好事。但对正在探索边界的人,这个功能要禁用。
你跟 agent 协作的基础是理解。它什么活干得好、什么活干得不好、思维有什么惯性,你必须看着它干才能学到。一旦黑盒化,你失去的是判断力,不是只是看不到细节。
带 AI 干活,像带新员工干活。最快的学习方式是看着他做每一步。把他当成许愿机会给你结果,但许愿机不会让你成为更厉害的领导者。
六、想随时随地操作?SSH + tailscale + tmux 够了
朋友说他喜欢 OpenClaw 的另一个原因是手机能控、随时随地下任务。这一段被大家忽略得太多,专门讲一下。
只用一台笔记本的话,跳过这段没事。
如果你想用手机操作家里的台式机,需要的基础设施其实非常成熟。SSH 是非常老的协议,让你从一台机器登录另一台机器,权限够高。tailscale 是免费的虚拟 VPN,把台式机、笔记本、手机都加进同一个 VPN,互相用稳定的内网 IP 直连。tmux 是后台 session 工具,在台式机上开一个 session,进项目目录打开 Claude Code 或 Codex,这个 session 永远在后台跑,断网、关手机都不影响。你随时可以 attach 进去看进度。
手机这一端配一个 Termius 之类的 Terminal app,连进去就行。整套搭起来一个小时不到。
搭好之后的工作流大概是这样:早上出门前给台式机的 tmux session 下个任务,通勤路上手机 attach 进去看一眼,进度有问题就调一下方向。公司开会期间 agent 自己跑。中午休息再 attach 进去看,继续给反馈。晚上回家电脑前接着干。
整条链路无缝。我现在每周大概有 50 小时是 agent 在我看不见的地方自己干活,但我对它干的事情有清楚的掌握感。手机就是控制器。
这种基础设施在程序员里很普通,但在"用 AI 推工作变革"的语境里被严重低估。它能让你从一台笔记本扩到一栋楼的算力,不需要任何中间件。
把上面这些放一起看
回到朋友最早那个问题:要不要接 AI 变革专家的 offer?
我没给他直接答案,给他了我的判断框架。一是看那家公司能不能给你接近无限制用最强模型的资源。不能的话,offer 价值有限。二是你自己平时一定要用顶配模型加最高 effort。尖兵阶段不省钱。三是时间只剩 10 周左右,这 10 周不要浪费在低效工具链上,也不要纠结"用第三方框架是不是更香"。
归根到底就一句话。当前没有人知道最强模型的真实边界。你要做的不是优化成本、不是适配现有流程,是用最猛的东西去撞那道边界,看它能不能往外推一点。
10 周之后,世界会被一批意想不到的成果震撼。到那个时候,你最不希望出现的状态是:过去这几个月我都在折腾 IDE 的配置和模型路由的成本。
时间是最贵的资源。注意力其次。钱排在最后。这个顺序,10 周之内别搞反。
参考资料
- OpenAI Codex 单周下载 9000 万 — Crypto Briefing
- Codex 周活开发者 4M+ 增长曲线 — Codex Blog
- OpenAI Codex 用户激增至 1.6M / 企业 AI Agent 定位 — Fortune
- Anthropic Q1 增长 80x,Dario Amodei 解释算力告急 — CNBC
- Anthropic 300 亿美金年化营收 run rate — VentureBeat
- Anthropic × SpaceX:Colossus 1 数据中心、22 万张 GPU、Pro/Max 解锁 5 小时上限 — Anthropic 官方
- Anthropic-SpaceX 协议:300 兆瓦、超过 22 万张 NVIDIA GPU — Bloomberg
- Deep Code:DeepSeek-V4 专属 CLI Agent — DeepSeek 官方文档
- DeepSeek-TUI:终端里的 DeepSeek coding agent — DEV.to
