跳转到主内容
博客

更快地失败

Chrome 插件折腾四小时,小红书实验全军覆没。记几个 AI 编程翻车的例子,和翻车之后想到的一些事。

5 分钟阅读
分享:
更快地失败

之前聊了不少 AI 在 web coding 里带来的变化,大多是它强的地方。今天换个角度,记几个失败的例子。

自己修不好自己

Claude Code 有一个 Chrome 浏览器扩展,通过 MCP 协议操控浏览器,可以让它直接在浏览器里搜东西、点按钮、截图。

这个插件一开始用着还行,某天突然打不开了。

当时对它的能力还比较信任。毕竟是自家的插件连自家的工具,纯软件问题,应该很快搞定。我就说:你自己看看怎么回事,修一下。

结果折腾了三四个小时。

中间的过程挺有意思。Opus 4.6,effort 开到 high,让它自己去找原因。每次都是一通分析,说"发现了关键线索",改了一些配置,最后说"你重启一下 session 应该就好了"。重启,不行。再分析,再改,再说重启就好。又不行。

后来甚至让我去 Chrome 扩展的控制台看日志,把错误信息复制给它。一旦开始向你要信息,方向就跑偏了。它不断索取更多的调试数据,但每一轮的结论都是"重启一下"。

这个循环重复了很多轮。到后面有点搞笑了。

最后是我提醒它:你去网上搜一下,看看别人有没有遇到类似的问题。它搜了一圈,找到了 GitHub 上其他人提的 issue,顺着解决思路,15 分钟搞定了。

后来了解到,这个扩展的架构是一条多跳连接链:CLI → WebSocket → bridge.claudeusercontent.com → native messaging host → Chrome 扩展。任何一跳断掉都会连接失败,而且断了之后没有明确的错误提示。如果同时装了 Claude Desktop,两个程序还会抢同一个 native messaging host,互相打架。在 GitHub 的 claude-code 仓库里是个已知问题。

自己公司的插件,连自己的工具,本以为是最熟悉的领域。三四个小时自己诊断,最后是"去搜一下"15 分钟搞定的。

小红书实验

第二个是小红书。

已经积累了不少博客内容,想着能不能转化成小红书上的流量,让不认识的人也能看到。

先试了最直接的方式:把博客文章发过去。效果约等于零。

然后让 Claude Code 帮我设计实验方案。方案本身做得不错,内容改编、标签策略都考虑到了,比我自己做系统得多。但结果都很差。

排查下来,全是被软限流了。

小红书对新账号的管控很激进。它不会直接告诉你"你的内容违规了",就是悄悄不给流量。搜也搜不到,推荐也没有。你发了帖子,看起来一切正常,但就是没人看见。你也不知道是内容不行还是被限了,这个才烦。

后来查了一下,2025 年 4 月单月小红书就处理了 100 万个违规账号。平台要求原创度超过 60%,低于 600 字的笔记可见性会被压制。对于用 AI 批量生成然后分发的内容,NLP 层面的语义理解让换词、谐音基本没用。注册门槛低,所以起号阶段被拦截的概率非常高。

做了几轮实验之后我就放下了。这事目前搞不定。

不过折腾这一圈也让我更确信一开始的选择是对的。如果一开始在小红书上做内容,面对不透明的算法和随时可能变的规则,新号没有正向反馈,做着做着可能就放弃了。个人网站没有这些,想写什么写什么。不同时间有朋友来说"这个蛮有意思",在知乎发一篇文章偶尔反响还不错,很多人讨论收藏。这些反馈是自然的。博客的资产是思想,先有内容再找分发,比先依赖平台再想内容健康得多。

失败才是主旋律

这两个例子都不算大事。第一个不及预期,但最终搞定了。第二个既不及预期也搞不定。

但我不觉得要因此对 AI 编程失望,也不觉得该因此瞧不起它就不用了。

日常工作里,人去做事的主旋律本来就是失败。想一下整个工作过程,获得成果的时刻其实非常少,大多数时候都在碰壁和调整方向。通过大量失败积累经验,在过程里探索,这就是常态。

跟打游戏一样。谁一上来就是顶尖玩家?最开始都是被虐,菜鸟,然后在失败里逐渐学习和提高。

跟模型协作也绕不开这个过程。CodeRabbit 今年的报告说 AI 生成的代码产生问题比人工代码多 1.7 倍。Copilot 的建议只有约 30% 被开发者接受。还有个调查挺有意思,说开发者自认为用 AI 快了 20%,实际算下来因为审查和修 bug 反而慢了 19%。

这些数字看起来不太好看。但换个角度想,AI 编程的价值可能就不在"成功率"上面。

软件开发里有个 fail-fast 原则,Jim Shore 说过一句话:立即且明显地失败,听起来让软件更脆弱,实际让它更健壮。Eric Ries 的《精益创业》也是这个思路,Build-Measure-Learn 循环说白了就是用最小代价最快验证假设,验证失败了也是结果。

AI 编程做的就是把这个循环压缩了。以前修一个 Chrome 扩展的问题,可能要花好几天搜索学习求助,最后可能还是放弃。现在三四个小时,中间人什么都没做,就看它一遍一遍跑、给它重启,最后搞定了。小红书那个实验本来可能要折腾更久才能知道走不通,现在几轮实验就有结论了。

尝试的面变宽了,反馈的速度变快了。以前折腾一件事要很久才知道结果,现在可能缩短到原来的十分之一。

模型在变强

这段时间还有个感受,模型进步速度比想的快。

去年 12 月底开始折腾 AI 编程。先用了一天 Sonnet 4.5,没能继续用。正好 Kimi K2.5 在 1 月底发布,买了会员试了试,体感不如 Sonnet 4.5 但也能用。同期试了 Codex 5.2,有点笨,还不如 K2.5 好使。没有什么高预期,就说这个事情既然已经开始在尝试了,不然做个小项目看看。

当时要求其他人也一起来做这个小项目。过程也不顺利,各种问题,来来回回折腾半天。但确实可以做到。这就令人诧异了。

然后就开始有新的想法。当时想做一个展会的 demo,大概有个想法,觉得应该不难。让 K2.5 去试,折腾了两三天怎么都搞不定,每次都说"行了可以了",结果就是跑不通。

2 月初 Opus 4.6 出来,一次搞定。

这种时刻才会真切感受到模型的进步。不是跑分高了几个点的事,是在实际使用中解决了你之前怎么都过不去的问题。

再后来旅行期间用 GLM-5、MiniMax 2.5,国内模型便宜些。后来用 Opus 4.6 做一个小插件,又是来来回回跑不通,每次都说好了没问题,一试就不行。把同一个任务扔给 3 月初发布的 GPT-5.4,三个小时后说搞定了。一试,真搞定了。

这些事全发生在三个月内。

这意味着什么呢?现在卡住的问题,可能下个月就不是问题了。要么多花点时间让模型多跑多试,配合它一起来做。要么等一等,新模型一出来可能就是另一个故事。

当然,遇到小红书这种平台规则的问题,模型再强也帮不了你。

不是许愿

如果觉得有了 AI 就能从"以失败为主旋律"变成"以成功为主旋律",那想多了。那是许愿,不是工具。

实际发生的事情是:还是以失败为主旋律,但失败得更快了,失败得更多了。

我们处在一个高度不确定、竞争激烈的时代。不可能每做一件事马上就出成果。但如果失败的速度快了、范围宽了,穿越这些弯路到达有价值的地方,也会快一些。

我觉得这可能才是现在这个阶段,它比较有意思的地方。

推荐阅读

订阅博客更新

新文章发布时第一时间通知你,不会发送垃圾邮件。

仅用于博客更新通知,随时可以取消订阅。

评论

或匿名评论
0/2000