跳转到主内容
博客
Agent 时代最贵的浪费:GPU 在等 CPU

Agent 时代最贵的浪费:GPU 在等 CPU

我做了七百轮 AI Infra 实验,三十五个小时全被环境启动吃掉。一开始还以为是 GPT-5.5 fast 模式不够快,后来发现根本不是模型在思考,是模型在等 CPU。Intel 已经把服务器 CPU:GPU 配比从 1:8 收紧到 1:1。

关嘉伟关嘉伟5 分钟阅读
分享:

最近一段时间我在用 Agent 做 AI Infra 的实验。统计了一下,七百多轮真机实验,光「等环境起来」这一件事就吃掉了三十五个小时。

这事让我开始怀疑一个常识:在 Agent 大规模铺开的今天,瓶颈到底在哪儿。

一开始我以为是模型慢

GPT-5.4 刚出来那会儿,我老觉得它墨迹。当时 fast 模式是消耗两倍额度换 1.5 倍吞吐,我开了一阵,体感快了一点,但远远没有 1.5 倍那么明显。账面上有点亏。但 OpenAI 那段时间推广,额度给得很慷慨,也就没太计较。

5.5 出来之后 fast 变得更贵了,2.5 倍额度换 1.5 倍速度。我又试了几天,结论是几乎完全没用:额度跑得飞快,体感速度提升几乎为零。

我想了一下原因。5.5 本来就比 5.4 操作精准得多,废动作砍掉一大半,单位时间已经在做更多事。再多花两倍多的钱去抠那点吐字速度,根本没法有显著体感。

更让我意外的是另一件事:我盯着自己的工作流看了几天,发现模型大多数时候不是在生成,是在等。

等什么?

七百轮实验,三十五小时被环境吃掉

我做的方向是 AI 推理 Infra,所以一轮典型实验长这样:搭环境、跑数据、收结果、写日志。

跑数据这段主要看 GPU 性能,是个波动因子,没什么可优化的。我盯了几天日志才意识到,每轮里被卡死的硬时间都在「环境启动」上:装依赖、配 cuda、起服务、做编译。这一段每轮平均三分钟。

七百轮乘以三分钟,是两千多分钟。差不多三十五个小时。

而我端到端跑完一轮,设计实验、写代码、跑数据、做分析、写记录加在一起,平均也就五到六分钟。也就是说,整段时间里有相当一部分是模型蹲在那里干等 CPU 把环境配出来。

我读一遍这个数据有点出戏。所谓的智能体在做实验,听上去很高大上,结果其中一半时间它真的就在那里发呆。

不是实验场景独有

放到日常工作场景,问题更扎眼。

随便举个例子,你让 Agent 用 PPT 做点东西。模型生成调用指令的速度可能就是几秒,刷地一下就给出来了。然后呢?等 PPT 启动。如果电脑老一点、PPT 是冷启动,光打开就一分钟。打开之后下指令、画图、调位置,又是 30 秒。

而且这中间几乎没法并行。每一步都要等上一步的结果。上一步效果不好就要改,改完才能进下一步,每一次交互都是串行依赖。看上去 Agent 在「自动化」工作,其实是在不停地阻塞等待。

我把时间算了一下。模型这边读你给的反馈,按 prefill 2000 token/s 算,1 万字大概五六秒就读完。输出指令按当下普遍的 30 token/s 算,1K token 差不多 35 秒。读加写一轮 40 秒左右。

但工具那一段也要 30 到 40 秒。两段是对等的。模型生成完之后就坐在那里等。等结果回来,再分析下一步。

这是当前 Agent 工作流的真实节奏。

模型再快,CPU 慢就是浪费

那我们假设把模型推理速度从 30 token/s 拉到 100 token/s。

听起来很爽,三倍。但成本可不是三倍。你要堆更多 GPU、用更高频的卡、跑更激进的并行策略,整体成本上去远不止三倍。

收益是什么?模型那 35 秒缩到 10 秒。一轮 40 秒变成 15 秒。

但工具那段还是 30 秒。整体一轮变成「执行 15 秒 + 等待 30 秒 = 45 秒」。

注意这个比例:六成多的时间 GPU 是闲着的。你花了大代价把 GPU 提了三倍速,结果三分之二的时间它都在等 CPU。

这个浪费在 Agent 场景里被放大得很厉害。因为一个工作流不会只调一个工具。Agent 可能要打开 PPT,再开 Word 拿点东西,再开浏览器搜张图,回来编辑。每一步都是冷启动加执行加等待。串起来全是 CPU 密集和 IO 密集的活。

这一年硬件圈在干同一件事

一开始我以为这只是我个人的体感。后来发现整个硬件圈这一年都在围着这件事转。

Intel 公开说,服务器里 CPU:GPU 配比已经从 1:8 收紧到 1:4,未来会到 1:1。Nvidia 在今年 3 月的 GTC 上直接点名 CPU 已经成为 agentic 工作负载的瓶颈,紧接着在 CES 2026 上发了 Vera CPU,88 核 Olympus、1.2 TB/s 带宽,专门给 agentic 编排和工具调度用。Arm 第一次自己下场做服务器 CPU。OpenAI 跟 Nvidia 那个超大单子里写得很明白:「数十万张 GPU,加上数千万颗 CPU。」

服务器 CPU 自今年 3 月已经涨了 20%,分析师预计下半年还要再涨 8 到 10 个点。Intel 把产能从消费级 CPU 切到 Xeon。

为什么所有人同步动起来?Nvidia 在自己技术博客里把那个工作流写得很清楚:拿任务、拉 context、调模型、解析输出、决定下一步、调工具、等 IO、处理结果、拼下一轮 prompt、再调模型。除了「调模型」那两下是 GPU 的活,其余几乎全都跑在 CPU 上。

反过来想,AI 把传统计算的需求拉爆了

以前我们觉得 AI 起来了,对底层基础设施的需求会被 AI 重塑。GPU、HBM、互联这些会更值钱,CPU 这种传统部件就那样吧。

现在看完全是反过来。AI 不是替代了传统计算,是把传统计算的需求拉爆了。Agent 越复杂,工具调用越多,串行依赖越深,对 CPU、内存带宽和 IO 的要求就越高。

底下其实是个朴素的成本逻辑。以前一个 PPT 启动慢一分钟,是人在等,那就等呗,损失不过是「人不爽」。现在如果是 Agent 在等,背后那张 GPU 每秒都在烧钱,等一分钟的成本是人的几十倍。

谁能让 GPU 等待时间最短,谁就赢了端到端的性价比。这件事最后会传导到机房的拓扑、调度的策略、推理服务的设计哲学,乃至每一家公司怎么挑硬件、签合同。这个传导链才刚刚开始。

给在做 Infra 和 Agent 工程的人

几件事可以提前想。

别把「模型快」等同于「端到端快」。一个工作流的真瓶颈很可能根本不在模型,而在那个被你忽略的工具冷启动。下次有人跟你聊「我们模型 TPS 多少」的时候,先反问一句你的工具链平均冷启动多久。

CPU、内存、IO 的预算别砍。你跑过一段时间真实工作流就知道,闲下来的不是 CPU,是 GPU。买 GPU 之前先看一眼 CPU 是不是已经快被压扁了。

回头看一眼自己工具链的冷启动时间。能预热的预热,能复用的复用。Agent 工作流大部分是串行的,但启动这一步几乎总有办法挤出空间。

我自己接下来一段时间会重点盯这块。先把那三十五个小时榨出来再说。


参考资料

推荐阅读

订阅博客更新

新文章发布时第一时间通知你,不会发送垃圾邮件。

仅用于博客更新通知,随时可以取消订阅。

评论

或匿名评论
0/2000