跳转到主内容
博客
Agent 越强,常识越值钱

Agent 越强,常识越值钱

上个月写了'无知是优势',这个月被 agent 连坑四次:性能虚高几十倍、实验机被删成砖、优化原地打转、目标太高交付不了。今天修正一下:无知让你敢试,常识让你不被骗。

关嘉伟关嘉伟5 分钟阅读
分享:

上个月我写了一篇《AI 让无知变成了优势》,说的是门外汉没有"这事有多难"的先验包袱,反而更敢用 AI 去碰看上去不可能的事。

我现在还是觉得这个观点对。但最近被 agent 连坑了四次,得修正一下。

最佳的状态不是完全不懂,是半懂不懂。有常识,知道大面上的东西,但不深入技术细节。完全不懂的人确实敢试,这是好事;但他没法分辨 agent 给的东西到底靠不靠谱。

一、假数据能骗你几十倍

最近在做一个推理引擎的性能优化。

第一晚打开结果,发现性能指标直接达到了我原本觉得非常有挑战性的目标。当时挺兴奋的,这么快就搞定了?

如果我对这个领域完全不懂,大概就开开心心把成果同步给合作伙伴了。但因为有点常识,总觉得不对劲,让它测了一下正确性。结果一出来全是感叹号。正确性修完之后,性能差了几十倍。

以为这就完了。继续往下优化,节奏又不对。每轮测试的数据上升得太快,快到反常。我看了一下测试流程,发现每次正式测试之前它悄悄跑了一轮 warm up,用的还是同一条 prompt。后续测试等于全跑在前缀缓存上,开卷考试偷看答案。把缓存隔离之后,性能又跌了几十倍。

还没完。prefill 回归理性之后,decode 速度突然变得离谱。一个跑在 Windows 上的引擎,吞吐竟然超过了 Linux 上的同款。我拿之前写的真实 prompt 测试脚本跑了一遍,性能又打了个一折。原因是 agent 测试时用的合成 prompt 太简单太规律,投机解码的接受率能到 80% 以上。换成真实 prompt,接受率暴跌,性能跟着崩。有做过投机解码落地的团队记录过同样的坑:生产环境的实际性能比实验室低 40% 到 60%,差距大到你怀疑是不是同一个系统。

三层假象叠在一起。如果一开始就信了第一个数据去对外同步,后面填坑的过程真的很不舒服。你给别人一个错误的预期,人家已经按那个数字在排计划了。你后来跟人说"不好意思,差了几十倍",那比一开始就说"还没搞定"难受多了。

后来再做优化,目标里明确写了两条:prefill 不能有前缀缓存的干扰,decode 必须用真实 prompt。加了这两条之后,才看到一条正常的、一点点往上爬的曲线。

二、它会把你的实验机搞坏

现在前沿的 agent 可以连续自主工作一整天甚至更久。时间一长,出事的概率就上来了。

我的 agent 不止一次在运行过程中,因为一个引号没写对、一条命令参数搞反了,啪就把实验机的系统打坏了。文件全删,环境全废。动作太快,一秒钟的事,你根本来不及拦。

这不是只有我碰到。今年 4 月,一个 agent 遇到凭据不匹配的时候没停下来问人,自己找了一个拥有全部权限的 token,9 秒之内删掉了一家公司的整个生产数据库连同所有备份。30 多小时停机,3 个月的客户数据全没了。过去两年里类似的事故记录在案的至少十几起。

Anthropic 和 OpenAI 现在都在推沙箱,思路不复杂:文件系统隔离一层,网络隔离一层。没有文件系统隔离,agent 可以碰到不该碰的东西;没有网络隔离,被劫持的 agent 可以偷你的密钥。

我自己的经验更土:给 agent 跑的实验设备,专机专用,别在上面存其他东西。它连续跑几十个小时,出低级错误的概率不是零。重装系统耽误的是时间,丢了重要数据耽误的是心情。

三、它会原地打转,等你来拍板

agent 还有个毛病,会在同一个问题上绕圈。

最近有个目标是在 Windows 上用 BF16 精度跑一个推理引擎。模型权重 60 多 G,加载完就 OOM,直接崩。

我看 agent 的应对方式挺有意思:它不断尝试绕过内存瓶颈。只加载一部分权重、推理时再动态读取、各种 offload 花样轮番上阵。每一种都跑不通,每一种又花了大量时间。它甚至因此在测试里加了 warm up 来掩盖加载延迟,前面说的前缀缓存问题,根源有一部分就在这。

后来我拦下来说:先别折腾性能,把内存问题先解决。这个瓶颈不搞定,后面全是白费。

Agent 执行力其实很强。方向一给对,很快就查到 Windows 上可以做一系列系统级设置来扩展内存和显存的可用量。搞定之后回来做优化,路径一下就顺了。之前绕来绕去的花活全用不上了,那些时间基本都浪费了。

它的问题是不会主动重新定义问题。拿到"优化性能"就死磕优化性能,哪怕卡在一个前置条件上,也只会想办法绕,不会跟你说"这个前提不成立,得先处理别的"。识别出真正的卡点,把 agent 从死胡同里拽出来,这个判断只有人能做。

四、目标定太高,什么都 ship 不出来

最后一个坑不是 agent 的问题,是我自己的。

Agent 越来越强,人就越容易把目标定太高。因为它可以连续跑很长时间,你就觉得什么都可以试。每个方向看上去都像是能发顶会论文级别的突破。于是同时开了好几条线,每条都很有野心。

结果呢?每条线都在 working、都在 progress,但没有一条 ship 出来。

持续投入 token,持续看到"进展",没有东西交付到用户手上。看上去像在做事,实际上是原地烧钱。我最近就犯了这个错,搞了几条线都是那种做成了就是大突破的方向,但实施风险也大。agent 又不是用来许愿的,搞不定就是搞不定,token 烧了一堆,deliver 不出东西。

后来想明白了:目标得缩窄。中短期有可以 ship 的东西,中长期有值得探的方向,不能只有后者。先把能交付的交付了,稳住节奏再去碰大的。

五、半懂不懂,反而刚好

四个坑放在一起看,有一条线串着:每一个都不需要你是深度专家才能避开。

性能涨了几十倍?先查一下是不是测错了。Agent 要在主力设备上跑一整天?给它一台专用的。优化三轮都卡在同一个地方?那个地方才是真正该解决的。每条线都在跑但没一条在 ship?先砍几条。

都是常识。

MIT Sloan 今年有篇文章讲 agentic AI 时代的管理,提到管理 agent 最需要的技能是定义问题和验证输出,都是 AI 自己做不好的事。"Agent Manager"已经出现在招聘板上了,岗位描述里有句话挺有意思:领域常识比 AI 专业知识更重要。

回到我之前那篇文章。"无知是优势"依然成立,你得不知道什么是难的,才敢去碰。但光有勇气不够。最值钱的状态是:敢试,又能在关键时刻看出不对劲。

完全不懂的人会被假数据带走。深度专家会被先验绑住。中间那种半懂不懂的人,既敢出手,又知道什么时候该拉一下缰绳。

Agent 会越来越强。但那一点人类常识,这个数对不对、这个方向对不对、这个东西该不该现在 ship,只会越来越值钱。这几件事到现在都是 agent 搞不定的。


参考资料

推荐阅读

订阅博客更新

新文章发布时第一时间通知你,不会发送垃圾邮件。

仅用于博客更新通知,随时可以取消订阅。

评论

或匿名评论
0/2000