AI 尖兵：还剩 10 周

最近几个数字串起来看挺有意思。

Sam Altman 在 GPT-5.5 发布之后明显很兴奋。Codex 单周下载量冲到 9000 万。付费用户从 3 月份的 300 万一路推到 4 月底的 400 多万。我自己的体感跟这个对得上。5.5 出来之前，我手里一个 200 美金的 Codex 账号；现在是四个，每月 800 美金。很多人在说 5.5 不该叫 5.5，该叫 GPT-6。我之前发过一句"它不是一个小版本"，被这件事印证。

Anthropic 那边更夸张。Dario Amodei 上周接受 CNBC 采访，算过一笔账。他们成立的时候就预判 AI 会 exponential 增长，按"每年 10 倍"做的基础设施准备。今年 Q1 的增长年化下来是 80 倍。年化营收从年初的 90 亿美金跑到四月份的 300 亿。基础设施被打爆，于是他们和 SpaceX 签了一个协议，把 Memphis 那座 Colossus 1 数据中心的 22 万张 GPU 全租下来，给 Claude Pro / Max 用户解锁 5 小时限额。

这是当下的背景。

在这个背景里，我昨天和一个朋友聊了几个小时。他用 AI 很深，会用 Terminal，会基于 OpenClaw 这类开源框架搭东西，在公司里是资深用户。这次有家公司请他过去做 AI 变革的专家，问我该怎么看。

聊完之后我发现，对话里有几个判断值得单独拎出来。

一、看 offer，看的是"能不能无限制用最强的模型"

我跟他说，当前这个时间点，offer 本身不是最重要的事情。你已经走在挺好的位置上了。

真正决定性的，是平台能不能给你接近无限制地使用最顶尖模型的资源，以及足够的自由度去折腾任何你想折腾的方向。

什么意思？像我这种工作年限稍长的，自己有方法绕过资源限制——我可以一个月烧 1000 美金给自己买顶配，自己定方向。但更年轻的、刚有用 AI 热情的，公司还是挺关键的。因为你是在工作时间为别人创造价值。模型不是最好的，你就始终差一线。你能感觉到这个差距，但你抓不到。

底牌没有，去做 AI 变革专家其实很难。

二、别再"用 GPT-5.5 跑 medium effort"了

第二件事我猜得很准。我跟他说，你用 GPT-5.5 的时候，effort 不会开到最高对吧？是不是为了省钱、为了控成本，做"路由"，把 effort 压下来？或者直接换成 Kimi、DeepSeek、Minimax？

答案是对的。我认识的人大多数都是这么用的。

这里我觉得有问题。

我自己有个反复试出来的结论。当年 Opus 4.6，把 effort 从 high 降到 medium，同一个模型，准确率从 80% 掉到 30% 左右。模型没换，只是 effort 改了一档，整条工作链的表现就完全不同。那次之后我没再用过 medium effort，Claude 一直走 x high。

GPT 这边从第一天起我都是 x high。原因很简单。如果一个任务 Claude Code 跑得不错，我基本不会再去试 GPT。让我觉得"这玩意确实不一样"的瞬间，都是开到最高 effort 才看到的。5.4 时代就这样，5.5 出来之后这个差异更明显。

所以一句话：当前阶段不要过早优化成本。

算笔账。一个最好的模型，一个账号一个月 200 美金。两个账号给非常充足的用量，单一垂直任务上几乎可以 7*24 连续跑。400 美金一个月，3000 人民币。这个钱比招一个实习生还便宜，但它的产出能接近一个博士级别的研究人员。便宜的那点钱省下来，意义在哪？

我现在一个月给自己花 1000 美金，五个账号轮着用。如果换成 API 调用，按同样的强度大概要 1 万美金。

为什么不去优化？因为你现在不知道最强模型的边界在哪儿。研发的人也不知道，他们没在你的领域试过。这就是未知地带。你要做的是用最强、最贵、最高 effort 的东西去撞这个边界，把它推到极限再说。等它真做不到，你也是确切地知道。

至于"为什么不能像传统软件那样先把成本控住"——等大家对边界都摸清了，到了大规模铺开的阶段，再考虑性价比。当前不在那个阶段。

三、还剩 10 周

朋友问：那时间呢？多花点时间慢慢试不行吗？

我说我帮你算笔时间。

世界现在还没被广泛震撼，是因为顶级模型出得太快、太密、间隔太短。我自己用下来发现一件挺反常识的事。即使是 GPT-5.5、Claude Opus 这种最顶尖的模型，开到最大 effort，把一个有价值的方向跑出来也需要时间。它很快，但没快到"想到就立刻做出来"的程度。它会一步一个脚印地走。原本一个团队几个月做的事，它能压缩到几周。但还是要走步骤。

带入到时间轴：

GPT-5.5 在 4 月 23 号发布，两周前。
那个时间点已经有一批人意识到这次不一样，开始在它上面跑自己最有野心的方向。
保守估计 3 个月之内，会有一批东西从想象不到的人、想象不到的方向、想象不到的领域 ship 出来。

3 个月 = 12 周。已经过了 2 周。还有 10 周。

10 周之后，会有一批了不起的成果走进这个世界，让大家意识到"世界不一样了"。这种成果不会等你。10 周后你的市场位置、你的标签、你的论资排辈，都可能要重新算一次。

10 周长吗？不长。它短到不允许你浪费一周去搭一个低效的工作流，或者犹豫用什么工具。

四、不要用 IDE，也不要折腾第三方框架

第三个话题：那我用什么？

我的回答可能会得罪一批人，但我想说清楚。

不要用 IDE。 coding agent 这个场景下，IDE 在我看来就是被淘汰的形态。它对原本不是资深程序员的人尤其不友好。你得花时间学一个对你来说没什么意义的复杂界面，结果 agent 写出来的代码你也看不懂。中间挤一个小小的 Terminal 窗口，这个形态从根上就不顺。

Terminal 这个名字耽误了 Claude Code 和 Codex。 很多人一听 CLI、Terminal，脑子里跳出来的就是"程序员的东西"。但我帮一些零编程基础的朋友装上 Claude Code 和 Codex 之后，没有一个人说"用不明白"。它就是把重要的东西展示给你，不重要的过程压成日志，跟着关键节点判断就行。新手反而比 IDE 上手更快。

有条件的话，不要用 OpenClaw、Hermes 这类第三方框架。 这个有点反常识。我之前确实帮人装过这些。但现在再看，Terminal 加官方 CLI 已经成熟到可以做所有这些框架能做的事，效果还更好。

为什么？因为官方 CLI 是围绕官方模型的 behaviour 定制的。Claude Code 接 Claude 模型，Codex 接 GPT 模型。缓存机制、错误恢复、风险闸门、上下文压缩，这些都是为那一个模型调过的。换成"用 OpenClaw 接 GPT"或者"用 Claude Code 接 Kimi"，理论上能跑，实际效果就是差一截。

最近有一个挺火的开源项目可以印证这件事。有人专门为 DeepSeek V4 做了一个 Deep Code CLI，类似 Claude Code 的形态，但只为 DeepSeek 一个模型定制。很多人觉得反常识——中转站不都是"我什么模型都要接"吗？这条路反而是对的。模型有自己的 behaviour，载体围绕它定制，效果和成本都会更好。

五、永远不要用"完全黑盒"的代理

OpenClaw 还有一个我觉得很危险的"优点"。它可以远程下发任务、出结果，过程不用看。听起来很爽。

对一部分人来说这是好事。但对正在探索边界的人，这个功能要禁用。

你跟 agent 协作的基础是理解。它什么活干得好、什么活干得不好、思维有什么惯性，你必须看着它干才能学到。一旦黑盒化，你失去的是判断力，不是只是看不到细节。

带 AI 干活，像带新员工干活。最快的学习方式是看着他做每一步。把他当成许愿机会给你结果，但许愿机不会让你成为更厉害的领导者。

六、想随时随地操作？SSH + tailscale + tmux 够了

朋友说他喜欢 OpenClaw 的另一个原因是手机能控、随时随地下任务。这一段被大家忽略得太多，专门讲一下。

只用一台笔记本的话，跳过这段没事。

如果你想用手机操作家里的台式机，需要的基础设施其实非常成熟。SSH 是非常老的协议，让你从一台机器登录另一台机器，权限够高。tailscale 是免费的虚拟 VPN，把台式机、笔记本、手机都加进同一个 VPN，互相用稳定的内网 IP 直连。tmux 是后台 session 工具，在台式机上开一个 session，进项目目录打开 Claude Code 或 Codex，这个 session 永远在后台跑，断网、关手机都不影响。你随时可以 attach 进去看进度。

手机这一端配一个 Termius 之类的 Terminal app，连进去就行。整套搭起来一个小时不到。

搭好之后的工作流大概是这样：早上出门前给台式机的 tmux session 下个任务，通勤路上手机 attach 进去看一眼，进度有问题就调一下方向。公司开会期间 agent 自己跑。中午休息再 attach 进去看，继续给反馈。晚上回家电脑前接着干。

整条链路无缝。我现在每周大概有 50 小时是 agent 在我看不见的地方自己干活，但我对它干的事情有清楚的掌握感。手机就是控制器。

这种基础设施在程序员里很普通，但在"用 AI 推工作变革"的语境里被严重低估。它能让你从一台笔记本扩到一栋楼的算力，不需要任何中间件。

把上面这些放一起看

回到朋友最早那个问题：要不要接 AI 变革专家的 offer？

我没给他直接答案，给他了我的判断框架。一是看那家公司能不能给你接近无限制用最强模型的资源。不能的话，offer 价值有限。二是你自己平时一定要用顶配模型加最高 effort。尖兵阶段不省钱。三是时间只剩 10 周左右，这 10 周不要浪费在低效工具链上，也不要纠结"用第三方框架是不是更香"。

归根到底就一句话。当前没有人知道最强模型的真实边界。你要做的不是优化成本、不是适配现有流程，是用最猛的东西去撞那道边界，看它能不能往外推一点。

10 周之后，世界会被一批意想不到的成果震撼。到那个时候，你最不希望出现的状态是：过去这几个月我都在折腾 IDE 的配置和模型路由的成本。

时间是最贵的资源。注意力其次。钱排在最后。这个顺序，10 周之内别搞反。