Agent 时代最贵的浪费：GPU 在等 CPU

最近一段时间我在用 Agent 做 AI Infra 的实验。统计了一下，七百多轮真机实验，光「等环境起来」这一件事就吃掉了三十五个小时。

这事让我开始怀疑一个常识：在 Agent 大规模铺开的今天，瓶颈到底在哪儿。

一开始我以为是模型慢

GPT-5.4 刚出来那会儿，我老觉得它墨迹。当时 fast 模式是消耗两倍额度换 1.5 倍吞吐，我开了一阵，体感快了一点，但远远没有 1.5 倍那么明显。账面上有点亏。但 OpenAI 那段时间推广，额度给得很慷慨，也就没太计较。

5.5 出来之后 fast 变得更贵了，2.5 倍额度换 1.5 倍速度。我又试了几天，结论是几乎完全没用：额度跑得飞快，体感速度提升几乎为零。

我想了一下原因。5.5 本来就比 5.4 操作精准得多，废动作砍掉一大半，单位时间已经在做更多事。再多花两倍多的钱去抠那点吐字速度，根本没法有显著体感。

更让我意外的是另一件事：我盯着自己的工作流看了几天，发现模型大多数时候不是在生成，是在等。

等什么？

七百轮实验，三十五小时被环境吃掉

我做的方向是 AI 推理 Infra，所以一轮典型实验长这样：搭环境、跑数据、收结果、写日志。

跑数据这段主要看 GPU 性能，是个波动因子，没什么可优化的。我盯了几天日志才意识到，每轮里被卡死的硬时间都在「环境启动」上：装依赖、配 cuda、起服务、做编译。这一段每轮平均三分钟。

七百轮乘以三分钟，是两千多分钟。差不多三十五个小时。

而我端到端跑完一轮，设计实验、写代码、跑数据、做分析、写记录加在一起，平均也就五到六分钟。也就是说，整段时间里有相当一部分是模型蹲在那里干等 CPU 把环境配出来。

我读一遍这个数据有点出戏。所谓的智能体在做实验，听上去很高大上，结果其中一半时间它真的就在那里发呆。

不是实验场景独有

放到日常工作场景，问题更扎眼。

随便举个例子，你让 Agent 用 PPT 做点东西。模型生成调用指令的速度可能就是几秒，刷地一下就给出来了。然后呢？等 PPT 启动。如果电脑老一点、PPT 是冷启动，光打开就一分钟。打开之后下指令、画图、调位置，又是 30 秒。

而且这中间几乎没法并行。每一步都要等上一步的结果。上一步效果不好就要改，改完才能进下一步，每一次交互都是串行依赖。看上去 Agent 在「自动化」工作，其实是在不停地阻塞等待。

我把时间算了一下。模型这边读你给的反馈，按 prefill 2000 token/s 算，1 万字大概五六秒就读完。输出指令按当下普遍的 30 token/s 算，1K token 差不多 35 秒。读加写一轮 40 秒左右。

但工具那一段也要 30 到 40 秒。两段是对等的。模型生成完之后就坐在那里等。等结果回来，再分析下一步。

这是当前 Agent 工作流的真实节奏。

模型再快，CPU 慢就是浪费

那我们假设把模型推理速度从 30 token/s 拉到 100 token/s。

听起来很爽，三倍。但成本可不是三倍。你要堆更多 GPU、用更高频的卡、跑更激进的并行策略，整体成本上去远不止三倍。

收益是什么？模型那 35 秒缩到 10 秒。一轮 40 秒变成 15 秒。

但工具那段还是 30 秒。整体一轮变成「执行 15 秒 + 等待 30 秒 = 45 秒」。

注意这个比例：六成多的时间 GPU 是闲着的。你花了大代价把 GPU 提了三倍速，结果三分之二的时间它都在等 CPU。

这个浪费在 Agent 场景里被放大得很厉害。因为一个工作流不会只调一个工具。Agent 可能要打开 PPT，再开 Word 拿点东西，再开浏览器搜张图，回来编辑。每一步都是冷启动加执行加等待。串起来全是 CPU 密集和 IO 密集的活。

Intel 公开说，服务器里 CPU:GPU 配比已经从 1:8 收紧到 1:4，未来会到 1:1。Nvidia 在今年 3 月的 GTC 上直接点名 CPU 已经成为 agentic 工作负载的瓶颈，紧接着在 CES 2026 上发了 Vera CPU，88 核 Olympus、1.2 TB/s 带宽，专门给 agentic 编排和工具调度用。Arm 第一次自己下场做服务器 CPU。OpenAI 跟 Nvidia 那个超大单子里写得很明白：「数十万张 GPU，加上数千万颗 CPU。」

服务器 CPU 自今年 3 月已经涨了 20%，分析师预计下半年还要再涨 8 到 10 个点。Intel 把产能从消费级 CPU 切到 Xeon。

为什么所有人同步动起来？Nvidia 在自己技术博客里把那个工作流写得很清楚：拿任务、拉 context、调模型、解析输出、决定下一步、调工具、等 IO、处理结果、拼下一轮 prompt、再调模型。除了「调模型」那两下是 GPU 的活，其余几乎全都跑在 CPU 上。

反过来想，AI 把传统计算的需求拉爆了

以前我们觉得 AI 起来了，对底层基础设施的需求会被 AI 重塑。GPU、HBM、互联这些会更值钱，CPU 这种传统部件就那样吧。

现在看完全是反过来。AI 不是替代了传统计算，是把传统计算的需求拉爆了。Agent 越复杂，工具调用越多，串行依赖越深，对 CPU、内存带宽和 IO 的要求就越高。

底下其实是个朴素的成本逻辑。以前一个 PPT 启动慢一分钟，是人在等，那就等呗，损失不过是「人不爽」。现在如果是 Agent 在等，背后那张 GPU 每秒都在烧钱，等一分钟的成本是人的几十倍。

谁能让 GPU 等待时间最短，谁就赢了端到端的性价比。这件事最后会传导到机房的拓扑、调度的策略、推理服务的设计哲学，乃至每一家公司怎么挑硬件、签合同。这个传导链才刚刚开始。

给在做 Infra 和 Agent 工程的人

几件事可以提前想。

别把「模型快」等同于「端到端快」。一个工作流的真瓶颈很可能根本不在模型，而在那个被你忽略的工具冷启动。下次有人跟你聊「我们模型 TPS 多少」的时候，先反问一句你的工具链平均冷启动多久。

CPU、内存、IO 的预算别砍。你跑过一段时间真实工作流就知道，闲下来的不是 CPU，是 GPU。买 GPU 之前先看一眼 CPU 是不是已经快被压扁了。

回头看一眼自己工具链的冷启动时间。能预热的预热，能复用的复用。Agent 工作流大部分是串行的，但启动这一步几乎总有办法挤出空间。

我自己接下来一段时间会重点盯这块。先把那三十五个小时榨出来再说。

Agent 时代最贵的浪费：GPU 在等 CPU

一开始我以为是模型慢

七百轮实验，三十五小时被环境吃掉

不是实验场景独有

模型再快，CPU 慢就是浪费

这一年硬件圈在干同一件事

反过来想，AI 把传统计算的需求拉爆了

给在做 Infra 和 Agent 工程的人

参考资料

推荐阅读

订阅博客更新

评论