AI 的矛与盾

最近开发过程中注意到了一些挺有意思的点，外面发生的事情也不少。这个时代依然没有停下来，还在以非常夸张的速度往前跑。零散记录几个想法。

Coding agent 解 bug 比写代码强

很多帖子和报告都在讨论一个问题：用 coding agent 写代码，最容易出什么问题？答案是 bug。

但从实际使用的体感来看，我觉得这恰恰说反了。

现在的 coding agent 在解 bug 和排查问题上的表现，比写代码要好。原因不复杂：debug 的目标是明确的，通常能复现，能一步一步拆开来验证。这种活 AI 干起来很顺手，速度还比人快得多。

真正有挑战的，反倒是让它从零去实现一个完整的东西——尤其当你想做的是一个产品。

产品化的深水区

传统软件开发有那么多流程——单元测试、集成测试、压力测试、灰度发布、Alpha、Beta——不是因为大家喜欢流程，是因为软件放到真实用户面前以后，会暴露各种你在代码里完全预想不到的问题。最佳实践能减少问题发生的概率，但没法消除问题本身。只有时间和使用压力，才能把问题逼出来，然后一个一个解决掉。

这个挑战对 coding agent 来说是一样的。

从零做一个小组件，很快。原型验证，很爽。但随着产品沉淀下来、代码量往上走，问题就来了：项目越大 AI 越容易改错东西，理解上下文的成本也在肉眼可见地往上走。这跟以前人去维护大项目是一样的道理——产品做出来之后迭代难度天然递增，得靠团队分工来扛。AI agent 也逃不掉这个规律。

所以我觉得现在的状态是这样的：验证概念很快，很爽。但把概念做成产品，每一个环节的深度思考和验证都省不了。

创意驱动的开源

但有一类方向，AI 确实特别擅长。

最近 Milla Jovovich——《第五元素》和《生化危机》系列的女主——花了几个月时间，和工程师 Ben Sigman 一起用 Claude Code 做了一个叫 MemPalace 的开源 AI 记忆系统。4 月 5 号推到 GitHub，48 小时之内 7000+ star，现在已经超过 22000。

在 LongMemEval 的评测里，MemPalace 的 R@5 到了 96.6%，远超 Mem0 和 Zep 这些付费方案的大约 85%。全本地运行，ChromaDB + SQLite，MIT 协议，完全免费。

AI 记忆确实是今年大家非常关注的方向。但 MemPalace 的特点不在于它有多复杂，恰恰相反——它不靠复杂度取胜，靠的是创意。就是围绕一个很聚焦的目标，比如打一个 benchmark，然后想办法把它做好。

这种模式特别适合 AI 来辅助。问题越聚焦，越依赖想法而不是工程量，AI 帮你验证的速度就越快。开源世界里这类项目越来越多了，我觉得是个很有意思的方向。

没有软件是安全的

这两天最大的新闻，是 Anthropic 正式公布了 Project Glasswing。

他们内部代号 Mythos 的下一代模型，3 月底因为一次内部数据泄露（CMS 配置出了问题，意外暴露了大约 3000 份内部文件）被提前曝光，4 月 7 号正式官宣。这个模型在软件安全上的能力，到了一个他们自己都不太敢发布的程度。

以前的模型能找漏洞——这件事情在圈里已经不新鲜了。但把漏洞转化成可用的攻击手段，是完全不同的事情。Mythos 把这两步合在一起了。

Anthropic 披露的数据很吓人：Mythos 在所有主流操作系统和浏览器中发现了数千个零日漏洞，其中包括一个在 OpenBSD 里藏了 27 年的 bug。以前那种可能十几年都没人发现的漏洞，现在被一个模型翻出来，而且直接就能做成攻击工具。

基本上，在这个模型面前，没有软件是安全的。

Anthropic 的判断是这个模型不能公开发布。他们联系了大约 45 家公司——包括 Apple、Google、Microsoft、Nvidia、AWS，加上 CrowdStrike、Palo Alto Networks、Cisco、Linux Foundation 等——让它们提前拿 Mythos 来加固自己的系统。逻辑很直接：在它变成矛之前，先让它当盾。

OpenAI 那边也没轻松到哪里去。GPT-5.4 成了第一个被 OpenAI 自己的 Preparedness Framework 评定为"高网络安全风险"的通用模型。从 GPT-5 到 GPT-5.4，模型在 CTF 夺旗赛上的得分从 27% 跳到 76%。OpenAI 选择加了一层安全防护后照常发布，跟 Anthropic 的做法不同，但面对的问题是相同的：模型的攻击能力在指数级增长。

我之前就感觉这件事在发生。Mythos 出来之后，基本证实了。而且这不只是软件一个领域的事——当一个新维度的事物以完全超出预期的速度在发展，很多原本配套的东西都会错位。法规跟不上，组织跟不上，安全体系也跟不上。

先把架子搭好

这些事反过来也影响了我对做产品的想法。

我们最近内部也在讨论，有些产品的定位是不是太激进了——比如设计上让 AI 完全自主管理某些流程。如果模型还不够聪明，总需要人去介入，那这个设计在当前就不太成立。

但换个角度想，也许产品设计就该跑在模型前面一点。

Anthropic 自己做产品就是这个路子。他们内部做 Chrome 插件、Excel 插件，都是先有一个想法，搭一个架子出来，然后每一代新模型出来就丢上去试——看能做到什么程度。等一等，等一等，某天发现差不多了，再投入大量精力去做产品化和发布。

你以当前模型水平去设计产品，等它上线的时候大概率已经过时了。反倒不如稍微激进一点，先把架构想清楚，等引擎到位，整个事情自然就成立了。想到了就做，做完等一等。

游戏还在继续

最后一个好消息。

智谱的 GLM-5.1 在 4 月初正式开源了，MIT 协议，权重完全公开。在 SWE-Bench Pro 上拿到 58.4 分，超过了 GPT-5.4、Claude Opus 4.6 和 Gemini 3.1 Pro。而且他们同时还涨了 10% 的价——在整个行业都在打价格战的时候，逆势涨价，这个操作本身就很有意思。

开源的游戏规则上，大家还没有产生回退。喜闻乐见。