更快地失败

之前聊了不少 AI 在 web coding 里带来的变化，大多是它强的地方。今天换个角度，记几个失败的例子。

自己修不好自己

Claude Code 有一个 Chrome 浏览器扩展，通过 MCP 协议操控浏览器，可以让它直接在浏览器里搜东西、点按钮、截图。

这个插件一开始用着还行，某天突然打不开了。

当时对它的能力还比较信任。毕竟是自家的插件连自家的工具，纯软件问题，应该很快搞定。我就说：你自己看看怎么回事，修一下。

结果折腾了三四个小时。

中间的过程挺有意思。Opus 4.6，effort 开到 high，让它自己去找原因。每次都是一通分析，说"发现了关键线索"，改了一些配置，最后说"你重启一下 session 应该就好了"。重启，不行。再分析，再改，再说重启就好。又不行。

后来甚至让我去 Chrome 扩展的控制台看日志，把错误信息复制给它。一旦开始向你要信息，方向就跑偏了。它不断索取更多的调试数据，但每一轮的结论都是"重启一下"。

这个循环重复了很多轮。到后面有点搞笑了。

最后是我提醒它：你去网上搜一下，看看别人有没有遇到类似的问题。它搜了一圈，找到了 GitHub 上其他人提的 issue，顺着解决思路，15 分钟搞定了。

后来了解到，这个扩展的架构是一条多跳连接链：CLI → WebSocket → bridge.claudeusercontent.com → native messaging host → Chrome 扩展。任何一跳断掉都会连接失败，而且断了之后没有明确的错误提示。如果同时装了 Claude Desktop，两个程序还会抢同一个 native messaging host，互相打架。在 GitHub 的 claude-code 仓库里是个已知问题。这种经历跟我之前10天写30万行代码然后全删了的感悟一致——代码是负债，做之前想清楚比做完再删便宜太多。

自己公司的插件，连自己的工具，本以为是最熟悉的领域。三四个小时自己诊断，最后是"去搜一下"15 分钟搞定的。

小红书实验

第二个是小红书。

已经积累了不少博客内容，想着能不能转化成小红书上的流量，让不认识的人也能看到。

先试了最直接的方式：把博客文章发过去。效果约等于零。

然后让 Claude Code 帮我设计实验方案。方案本身做得不错，内容改编、标签策略都考虑到了，比我自己做系统得多。但结果都很差。

排查下来，全是被软限流了。

小红书对新账号的管控很激进。它不会直接告诉你"你的内容违规了"，就是悄悄不给流量。搜也搜不到，推荐也没有。你发了帖子，看起来一切正常，但就是没人看见。你也不知道是内容不行还是被限了，这个才烦。

后来查了一下，2025 年 4 月单月小红书就处理了 100 万个违规账号。平台要求原创度超过 60%，低于 600 字的笔记可见性会被压制。对于用 AI 批量生成然后分发的内容，NLP 层面的语义理解让换词、谐音基本没用。注册门槛低，所以起号阶段被拦截的概率非常高。

做了几轮实验之后我就放下了。这事目前搞不定。

不过折腾这一圈也让我更确信一开始的选择是对的——先沉淀到自己的官网，再分发到各平台。如果一开始在小红书上做内容，面对不透明的算法和随时可能变的规则，新号没有正向反馈，做着做着可能就放弃了。个人网站没有这些，想写什么写什么。不同时间有朋友来说"这个蛮有意思"，在知乎发一篇文章偶尔反响还不错，很多人讨论收藏。这些反馈是自然的。博客的资产是思想，先有内容再找分发，比先依赖平台再想内容健康得多。

失败才是主旋律

这两个例子都不算大事。第一个不及预期，但最终搞定了。第二个既不及预期也搞不定。

但我不觉得要因此对 AI 编程失望，也不觉得该因此瞧不起它就不用了。

日常工作里，人去做事的主旋律本来就是失败。想一下整个工作过程，获得成果的时刻其实非常少，大多数时候都在碰壁和调整方向。通过大量失败积累经验，在过程里探索，这就是常态。

跟打游戏一样。谁一上来就是顶尖玩家？最开始都是被虐，菜鸟，然后在失败里逐渐学习和提高。

跟模型协作也绕不开这个过程。CodeRabbit 今年的报告说 AI 生成的代码产生问题比人工代码多 1.7 倍。Copilot 的建议只有约 30% 被开发者接受。还有个调查挺有意思，说开发者自认为用 AI 快了 20%，实际算下来因为审查和修 bug 反而慢了 19%。

这些数字看起来不太好看。但换个角度想，AI 编程的价值可能就不在"成功率"上面。

软件开发里有个 fail-fast 原则，Jim Shore 说过一句话：立即且明显地失败，听起来让软件更脆弱，实际让它更健壮。Eric Ries 的《精益创业》也是这个思路，Build-Measure-Learn 循环说白了就是用最小代价最快验证假设，验证失败了也是结果。

AI 编程做的就是把这个循环压缩了。以前修一个 Chrome 扩展的问题，可能要花好几天搜索学习求助，最后可能还是放弃。现在三四个小时，中间人什么都没做，就看它一遍一遍跑、给它重启，最后搞定了。小红书那个实验本来可能要折腾更久才能知道走不通，现在几轮实验就有结论了。

尝试的面变宽了，反馈的速度变快了。以前折腾一件事要很久才知道结果，现在可能缩短到原来的十分之一。

模型在变强

这段时间还有个感受，模型进步速度比想的快。

去年 12 月底开始折腾 AI 编程。先用了一天 Sonnet 4.5，没能继续用。正好 Kimi K2.5 在 1 月底发布，买了会员试了试，体感不如 Sonnet 4.5 但也能用。同期试了 Codex 5.2，有点笨，还不如 K2.5 好使。没有什么高预期，就说这个事情既然已经开始在尝试了，不然做个小项目看看。

当时要求其他人也一起来做这个小项目。过程也不顺利，各种问题，来来回回折腾半天。但确实可以做到。这就令人诧异了。

然后就开始有新的想法。当时想做一个展会的 demo，大概有个想法，觉得应该不难。让 K2.5 去试，折腾了两三天怎么都搞不定，每次都说"行了可以了"，结果就是跑不通。

2 月初 Opus 4.6 出来，一次搞定。

这种时刻才会真切感受到模型的进步。不是跑分高了几个点的事，是在实际使用中解决了你之前怎么都过不去的问题。

再后来旅行期间用 GLM-5、MiniMax 2.5，国内模型便宜些。后来用 Opus 4.6 做一个小插件，又是来来回回跑不通，每次都说好了没问题，一试就不行。把同一个任务扔给 3 月初发布的 GPT-5.4，三个小时后说搞定了。一试，真搞定了。

这些事全发生在三个月内。Vibe coding的核心就在这里——工具在飞速迭代，今天的短板明天可能就补上了。

这意味着什么呢？现在卡住的问题，可能下个月就不是问题了。要么多花点时间让模型多跑多试，配合它一起来做。要么等一等，新模型一出来可能就是另一个故事。

当然，遇到小红书这种平台规则的问题，模型再强也帮不了你。

不是许愿

如果觉得有了 AI 就能从"以失败为主旋律"变成"以成功为主旋律"，那想多了。那是许愿，不是工具。

实际发生的事情是：还是以失败为主旋律，但失败得更快了，失败得更多了。

我们处在一个高度不确定、竞争激烈的时代。不可能每做一件事马上就出成果。但如果失败的速度快了、范围宽了，穿越这些弯路到达有价值的地方，也会快一些。

我觉得这可能才是现在这个阶段，它比较有意思的地方。