模型快 5 倍，就不再是同一个模型

这周看到两个发布。

5 月 19 日 Google 发了 Gemini 3.5 Flash。我看了一下他们的发布会，奇怪的是模型本身的智能水平没怎么强调。从 benchmark 上看，跟前一代相比也没那么醒目。但他们花了很大篇幅讲速度，说这是"为速度而生的前沿智能"，宣称推理速度是其他前沿模型的 4 倍。

今天 5 月 22 日，智谱也发了 GLM-5.1 高速版，宣称 400 token/s 的输出，是当前业界 API 的速度上限。这套引擎不是智谱自己单独搞的，是和一个叫 TileRT 的团队联合做的，专门针对 GLM 这一款模型在某一类硬件上做了底层定制。

把这两件事放在一起，再回头看几个月以来 Anthropic 的 Opus Fast、OpenAI 的 GPT-5.5 Fast，方向其实就清楚了：模型层的差异化开始换车道了。原本大家比的是聪明，现在越来越多地开始比谁更快。

而且速度这件事一旦跨过某条线，就不再是"快了几倍"这种线性的提升了。它会让 AI 变成一种不同的东西。

一、定价已经在告诉我们答案了

最直接的一个证据是 fast mode 的定价。

Anthropic 的 Opus Fast：2.5 倍速度，6 倍价格。 OpenAI 的 GPT-5.5 Fast：1.5 倍速度，2.5 倍成本。

注意比例。如果速度的价值是线性的，那 2.5 倍速度应该卖 2.5 倍价格，1.5 倍速度卖 1.5 倍价格。但实际定价里，价格涨幅明显超过速度涨幅。

这不是模型公司在贪。这是真实的定价信号：市场里真有一群人愿意为速度多付钱。他们的任务要么是高频反馈的，要么是用户在那干等的，要么是后续步骤被它卡住的。这些场景里，从 30 秒变成 12 秒，跟从原本的 30 秒变成 20 秒，体感完全不是一回事。

我自己用 Opus Fast 的时候，开开关关好多次。GPT5.5的1.5 倍速度的那个档我直接关了，体感不明显，纯亏钱。但到了 2.5 倍那一档，就有些任务我愿意一直开着——主要是那种我盯着结果看的、需要反复迭代的活儿。

市场是诚实的。一个东西能卖出 6 倍价格，意味着真有人觉得它值。

二、单路速度和"堆机器"是两回事

这里得先分清楚两件事。

第一件事是"在一个固定速度下做更多并发"。同样 30 token/s 的吞吐，原本服务 100 个用户，现在服务 1000 个。这事相对好办。机器堆上去就行，可以用稍微弱一点的卡多买几张分摊，性价比能调出来。

第二件事是"让单个请求跑得更快"。原本 30 token/s，要让它跑到 400。这事就完全不一样了。你需要更高端的硬件，更激进的显存带宽，更尖端的封装工艺。这些不是"多花点钱堆几张卡"能解决的。你想加快单路，弱的卡堆 100 张也加不到一张顶级卡的速度。

我自己做过一段时间推理 infra 的实验，跑过几个开源模型自己优化。这两件事的成本曲线完全不一样。第一种近似线性，多花一倍钱基本能多出一倍并发。第二种是非线性的——前面 20% 的提速可能花你 50% 的成本，再往后越来越陡。

所以当你看到 Gemini 3.5 Flash 强调速度，或者 GLM 高速版冲到 400 token/s，他们说的不是"我们做了更便宜的版本"，而是"我们把单路速度推到了一个新位置"。这件事的难度，是另一个量级。

三、5 倍是一条物种线

那为什么要拼命做这件事？

我自己想这个问题的时候会回到一个朴素的对比。

如果你想让一件事更快完成，传统上有几种办法。

第一种是请更厉害的人。但这条路有顶。世界上最强的人就那么几个，而且现在最聪明的模型已经接近这条线了。

第二种是让人加班。Agent 已经 7×24 干活了，这条线也到顶了。

第三种是分工，多投几个人进去。但你做过工程的就知道，加人不是线性的。加 1 个人不会变快 1 倍，加 10 个人也远远做不到 10 倍。中间要做拆解、要做交接、要协调、要处理参差不齐、要管浪费。新员工入职那个 ramp up 周期，很贵。做 multi-agent 编排的人现在感受应该最深。

到这里你会发现，传统加速的几条路都很难再往前推。

那剩下还能干什么？让一个模型，同一个员工，本身变快。

而且这种"同一个员工变快"是非线性的。

你想象一下，一个员工原本 1 个小时干完一件事。现在他 10 分钟干完，你以为只是省了 50 分钟？不止。

你会开始让他干那些原本因为"太慢了所以根本不会让他干"的事情。一些临时小需求，原本要等一个小时才能看到结果，你就懒得提了；现在 10 分钟出来，你一天能提十几个。这些原本根本不存在的任务，被速度激活了。

我前两天看到一个 demo，一个人戴着眼镜，对着屏幕上的视频指了一下，说"这个放大"，背后 AI 直接写了一段代码把页面元素调整了。整个链路如果要 30 秒，你看了一眼大概就走开了，根本谈不上实时交互。但如果 5 秒钟内就完成，体感就完全不一样了，那变成了一个真正能用的产品。

这就是 50 token/s 到 400 token/s 的区别。8 倍速度，激活的是原本根本做不出来的产品。

5 倍以上的提速，是一条物种线。

四、专用化的回归

OK，承认了速度有价值，问题来了：怎么把速度做出来？

这就要讲讲 TileRT 的做法，它跟一年前业界的主流路径不太一样。

主流推理框架像 vLLM、TensorRT-LLM、SGLang 这一类，都是通用的。设计目标是"装下尽可能多的模型，在尽可能多的硬件上跑得还行"。这是软件工程长久以来的默认偏好：通用性优先，性能次之。

TileRT 反过来。它的做法是把整个推理图在编译期静态排好，作为一个常驻 Kernel 跑在 GPU 上，几乎不做运行时的动态调度。粒度细到 tile 级别的微任务，能把硬件压榨到接近物理极限。代价是什么？换个模型基本就废了，换个硬件也得大改。

DeepSeek 也是这条路。他们自己的推理引擎前期基于 vLLM，后来深度定制了一年多，几乎所有路径都为自己的 MoE 架构重写过一遍。前阵子他们开源了一部分，业界看完之后感叹的不是"这有多通用"，而是"为一个模型能做到这么深"。

再往下看一层，硬件层早就在走这条路了。Groq 的 LPU 跑 Llama 4 Scout 能到 460 token/s，是 H100 的 3-4 倍。Cerebras 的 WSE-3 在 70B 模型上能跑到 1800 token/s，gpt-oss-120B 上接近 3000。这些都是专用硬件。它们不打算去跑各种各样的模型，就是为了某一类工作负载做到极致。

这条路其实在芯片行业讨论过很多年了。通用 CPU 还是专用 ASIC？通用芯片有它的好，但只要某个领域的需求足够大、生命周期足够长，专用化的投入就值得做。

软件层以前不太走这条路，主要是因为软件本身写起来就不便宜。专门为一个模型写一套推理栈，回本周期太长，很容易模型一换，你的软件就作废了。

现在情况变了。AI agent 自己能写软件了。"为一个特定的模型和硬件，从零搭一套最优的推理栈"这件事，成本一年比一年低。一旦这个成本压到某个临界点，专用化就会变成默认选项。

每一个有潜力的模型，未来都会有自己的专属推理引擎。每一代主流硬件，也都会有自己专门优化过的栈。你以前以为这只是"优化的最后 5%"，现在它可能会变成 5 倍、10 倍的差距。

五、模型层的垂直整合，没办法避免了

把这些线索拉到一起。

智能这条线短期内还会涨，但单点比拼的边际效用在下降。再聪明 20% 的模型，跟把同一个模型加速 10 倍相比，对很多用户来说后者的价值大得多，尤其是对那些刚被速度激活出来的新场景。

所以下一阶段的竞争，会从"单点的智能"变成"端到端的能力"。模型 + 推理引擎 + 硬件，三件事捆在一起比拼。

如果你 400 token/s，我 30 token/s，就算我的模型聪明 20 倍，在很多场景里我也没法用。我会看着我自己最聪明的模型坐在那里慢慢吐字，你已经把整个产品体验交到用户手里了。

DeepSeek、智谱已经在做这件事。Anthropic、OpenAI 也在做。Google 应该是做得最早最深的，TPU + Gemini 这套组合早就在内部跑了。我猜接下来一两年，整个行业会越来越往这个方向走：模型公司必须有自己的推理栈，必须深入到硬件层；硬件公司必须深入到模型架构；中间通用的那层，会被两头挤压。

这条路对工程师来说其实挺刺激的。以前我们觉得"通用、可扩展、可移植"是软件工程的好品味。未来一段时间里可能恰恰相反，为特定模型、特定硬件，写一套最极致但"换个东西就不能用"的代码，会重新变成一件值得做的事。

软件工程的审美，要换一换了。