跳转到主内容
博客
AI 尖兵:还剩 10 周

AI 尖兵:还剩 10 周

朋友问我要不要接 AI 变革专家的 offer。聊完三个小时,我把判断写下来:尖兵阶段不要省钱、不要碰 IDE、不要让 agent 黑盒化。GPT-5.5 发布两周,剩下 10 周世界会被一批意想不到的成果震撼。

关嘉伟关嘉伟7 分钟阅读
分享:

最近几个数字串起来看挺有意思。

Sam Altman 在 GPT-5.5 发布之后明显很兴奋。Codex 单周下载量冲到 9000 万。付费用户从 3 月份的 300 万一路推到 4 月底的 400 多万。我自己的体感跟这个对得上。5.5 出来之前,我手里一个 200 美金的 Codex 账号;现在是四个,每月 800 美金。很多人在说 5.5 不该叫 5.5,该叫 GPT-6。我之前发过一句"它不是一个小版本",被这件事印证。

Anthropic 那边更夸张。Dario Amodei 上周接受 CNBC 采访,算过一笔账。他们成立的时候就预判 AI 会 exponential 增长,按"每年 10 倍"做的基础设施准备。今年 Q1 的增长年化下来是 80 倍。年化营收从年初的 90 亿美金跑到四月份的 300 亿。基础设施被打爆,于是他们和 SpaceX 签了一个协议,把 Memphis 那座 Colossus 1 数据中心的 22 万张 GPU 全租下来,给 Claude Pro / Max 用户解锁 5 小时限额。

这是当下的背景。

在这个背景里,我昨天和一个朋友聊了几个小时。他用 AI 很深,会用 Terminal,会基于 OpenClaw 这类开源框架搭东西,在公司里是资深用户。这次有家公司请他过去做 AI 变革的专家,问我该怎么看。

聊完之后我发现,对话里有几个判断值得单独拎出来。

一、看 offer,看的是"能不能无限制用最强的模型"

我跟他说,当前这个时间点,offer 本身不是最重要的事情。你已经走在挺好的位置上了。

真正决定性的,是平台能不能给你接近无限制地使用最顶尖模型的资源,以及足够的自由度去折腾任何你想折腾的方向。

什么意思?像我这种工作年限稍长的,自己有方法绕过资源限制——我可以一个月烧 1000 美金给自己买顶配,自己定方向。但更年轻的、刚有用 AI 热情的,公司还是挺关键的。因为你是在工作时间为别人创造价值。模型不是最好的,你就始终差一线。你能感觉到这个差距,但你抓不到。

底牌没有,去做 AI 变革专家其实很难。

二、别再"用 GPT-5.5 跑 medium effort"了

第二件事我猜得很准。我跟他说,你用 GPT-5.5 的时候,effort 不会开到最高对吧?是不是为了省钱、为了控成本,做"路由",把 effort 压下来?或者直接换成 Kimi、DeepSeek、Minimax?

答案是对的。我认识的人大多数都是这么用的。

这里我觉得有问题。

我自己有个反复试出来的结论。当年 Opus 4.6,把 effort 从 high 降到 medium,同一个模型,准确率从 80% 掉到 30% 左右。模型没换,只是 effort 改了一档,整条工作链的表现就完全不同。那次之后我没再用过 medium effort,Claude 一直走 x high。

GPT 这边从第一天起我都是 x high。原因很简单。如果一个任务 Claude Code 跑得不错,我基本不会再去试 GPT。让我觉得"这玩意确实不一样"的瞬间,都是开到最高 effort 才看到的。5.4 时代就这样,5.5 出来之后这个差异更明显。

所以一句话:当前阶段不要过早优化成本。

算笔账。一个最好的模型,一个账号一个月 200 美金。两个账号给非常充足的用量,单一垂直任务上几乎可以 7*24 连续跑。400 美金一个月,3000 人民币。这个钱比招一个实习生还便宜,但它的产出能接近一个博士级别的研究人员。便宜的那点钱省下来,意义在哪?

我现在一个月给自己花 1000 美金,五个账号轮着用。如果换成 API 调用,按同样的强度大概要 1 万美金。

为什么不去优化?因为你现在不知道最强模型的边界在哪儿。研发的人也不知道,他们没在你的领域试过。这就是未知地带。你要做的是用最强、最贵、最高 effort 的东西去撞这个边界,把它推到极限再说。等它真做不到,你也是确切地知道。

至于"为什么不能像传统软件那样先把成本控住"——等大家对边界都摸清了,到了大规模铺开的阶段,再考虑性价比。当前不在那个阶段。

三、还剩 10 周

朋友问:那时间呢?多花点时间慢慢试不行吗?

我说我帮你算笔时间。

世界现在还没被广泛震撼,是因为顶级模型出得太快、太密、间隔太短。我自己用下来发现一件挺反常识的事。即使是 GPT-5.5、Claude Opus 这种最顶尖的模型,开到最大 effort,把一个有价值的方向跑出来也需要时间。它很快,但没快到"想到就立刻做出来"的程度。它会一步一个脚印地走。原本一个团队几个月做的事,它能压缩到几周。但还是要走步骤。

带入到时间轴:

  • GPT-5.5 在 4 月 23 号发布,两周前。
  • 那个时间点已经有一批人意识到这次不一样,开始在它上面跑自己最有野心的方向。
  • 保守估计 3 个月之内,会有一批东西从想象不到的人、想象不到的方向、想象不到的领域 ship 出来。

3 个月 = 12 周。已经过了 2 周。还有 10 周。

10 周之后,会有一批了不起的成果走进这个世界,让大家意识到"世界不一样了"。这种成果不会等你。10 周后你的市场位置、你的标签、你的论资排辈,都可能要重新算一次。

10 周长吗?不长。它短到不允许你浪费一周去搭一个低效的工作流,或者犹豫用什么工具。

四、不要用 IDE,也不要折腾第三方框架

第三个话题:那我用什么?

我的回答可能会得罪一批人,但我想说清楚。

不要用 IDE。 coding agent 这个场景下,IDE 在我看来就是被淘汰的形态。它对原本不是资深程序员的人尤其不友好。你得花时间学一个对你来说没什么意义的复杂界面,结果 agent 写出来的代码你也看不懂。中间挤一个小小的 Terminal 窗口,这个形态从根上就不顺。

Terminal 这个名字耽误了 Claude Code 和 Codex。 很多人一听 CLI、Terminal,脑子里跳出来的就是"程序员的东西"。但我帮一些零编程基础的朋友装上 Claude Code 和 Codex 之后,没有一个人说"用不明白"。它就是把重要的东西展示给你,不重要的过程压成日志,跟着关键节点判断就行。新手反而比 IDE 上手更快。

有条件的话,不要用 OpenClaw、Hermes 这类第三方框架。 这个有点反常识。我之前确实帮人装过这些。但现在再看,Terminal 加官方 CLI 已经成熟到可以做所有这些框架能做的事,效果还更好。

为什么?因为官方 CLI 是围绕官方模型的 behaviour 定制的。Claude Code 接 Claude 模型,Codex 接 GPT 模型。缓存机制、错误恢复、风险闸门、上下文压缩,这些都是为那一个模型调过的。换成"用 OpenClaw 接 GPT"或者"用 Claude Code 接 Kimi",理论上能跑,实际效果就是差一截。

最近有一个挺火的开源项目可以印证这件事。有人专门为 DeepSeek V4 做了一个 Deep Code CLI,类似 Claude Code 的形态,但只为 DeepSeek 一个模型定制。很多人觉得反常识——中转站不都是"我什么模型都要接"吗?这条路反而是对的。模型有自己的 behaviour,载体围绕它定制,效果和成本都会更好。

五、永远不要用"完全黑盒"的代理

OpenClaw 还有一个我觉得很危险的"优点"。它可以远程下发任务、出结果,过程不用看。听起来很爽。

对一部分人来说这是好事。但对正在探索边界的人,这个功能要禁用。

你跟 agent 协作的基础是理解。它什么活干得好、什么活干得不好、思维有什么惯性,你必须看着它干才能学到。一旦黑盒化,你失去的是判断力,不是只是看不到细节。

带 AI 干活,像带新员工干活。最快的学习方式是看着他做每一步。把他当成许愿机会给你结果,但许愿机不会让你成为更厉害的领导者。

六、想随时随地操作?SSH + tailscale + tmux 够了

朋友说他喜欢 OpenClaw 的另一个原因是手机能控、随时随地下任务。这一段被大家忽略得太多,专门讲一下。

只用一台笔记本的话,跳过这段没事。

如果你想用手机操作家里的台式机,需要的基础设施其实非常成熟。SSH 是非常老的协议,让你从一台机器登录另一台机器,权限够高。tailscale 是免费的虚拟 VPN,把台式机、笔记本、手机都加进同一个 VPN,互相用稳定的内网 IP 直连。tmux 是后台 session 工具,在台式机上开一个 session,进项目目录打开 Claude Code 或 Codex,这个 session 永远在后台跑,断网、关手机都不影响。你随时可以 attach 进去看进度。

手机这一端配一个 Termius 之类的 Terminal app,连进去就行。整套搭起来一个小时不到。

搭好之后的工作流大概是这样:早上出门前给台式机的 tmux session 下个任务,通勤路上手机 attach 进去看一眼,进度有问题就调一下方向。公司开会期间 agent 自己跑。中午休息再 attach 进去看,继续给反馈。晚上回家电脑前接着干。

整条链路无缝。我现在每周大概有 50 小时是 agent 在我看不见的地方自己干活,但我对它干的事情有清楚的掌握感。手机就是控制器。

这种基础设施在程序员里很普通,但在"用 AI 推工作变革"的语境里被严重低估。它能让你从一台笔记本扩到一栋楼的算力,不需要任何中间件。

把上面这些放一起看

回到朋友最早那个问题:要不要接 AI 变革专家的 offer?

我没给他直接答案,给他了我的判断框架。一是看那家公司能不能给你接近无限制用最强模型的资源。不能的话,offer 价值有限。二是你自己平时一定要用顶配模型加最高 effort。尖兵阶段不省钱。三是时间只剩 10 周左右,这 10 周不要浪费在低效工具链上,也不要纠结"用第三方框架是不是更香"。

归根到底就一句话。当前没有人知道最强模型的真实边界。你要做的不是优化成本、不是适配现有流程,是用最猛的东西去撞那道边界,看它能不能往外推一点。

10 周之后,世界会被一批意想不到的成果震撼。到那个时候,你最不希望出现的状态是:过去这几个月我都在折腾 IDE 的配置和模型路由的成本。

时间是最贵的资源。注意力其次。钱排在最后。这个顺序,10 周之内别搞反。


参考资料

推荐阅读

订阅博客更新

新文章发布时第一时间通知你,不会发送垃圾邮件。

仅用于博客更新通知,随时可以取消订阅。

评论

或匿名评论
0/2000