跳转到主内容
博客
模型快 5 倍,就不再是同一个模型

模型快 5 倍,就不再是同一个模型

Gemini 3.5 Flash 发布会几乎不讲智能,智谱 GLM-5.1 高速版冲到 400 token/s。背后是同一个故事——推理速度跨过 5 倍那条线之后,模型解锁的就是另一类产品了。

关嘉伟关嘉伟6 分钟阅读
分享:

这周看到两个发布。

5 月 19 日 Google 发了 Gemini 3.5 Flash。我看了一下他们的发布会,奇怪的是模型本身的智能水平没怎么强调。从 benchmark 上看,跟前一代相比也没那么醒目。但他们花了很大篇幅讲速度,说这是"为速度而生的前沿智能",宣称推理速度是其他前沿模型的 4 倍。

今天 5 月 22 日,智谱也发了 GLM-5.1 高速版,宣称 400 token/s 的输出,是当前业界 API 的速度上限。这套引擎不是智谱自己单独搞的,是和一个叫 TileRT 的团队联合做的,专门针对 GLM 这一款模型在某一类硬件上做了底层定制。

把这两件事放在一起,再回头看几个月以来 Anthropic 的 Opus Fast、OpenAI 的 GPT-5.5 Fast,方向其实就清楚了:模型层的差异化开始换车道了。原本大家比的是聪明,现在越来越多地开始比谁更快。

而且速度这件事一旦跨过某条线,就不再是"快了几倍"这种线性的提升了。它会让 AI 变成一种不同的东西。

一、定价已经在告诉我们答案了

最直接的一个证据是 fast mode 的定价。

Anthropic 的 Opus Fast:2.5 倍速度,6 倍价格。 OpenAI 的 GPT-5.5 Fast:1.5 倍速度,2.5 倍成本。

注意比例。如果速度的价值是线性的,那 2.5 倍速度应该卖 2.5 倍价格,1.5 倍速度卖 1.5 倍价格。但实际定价里,价格涨幅明显超过速度涨幅。

这不是模型公司在贪。这是真实的定价信号:市场里真有一群人愿意为速度多付钱。他们的任务要么是高频反馈的,要么是用户在那干等的,要么是后续步骤被它卡住的。这些场景里,从 30 秒变成 12 秒,跟从原本的 30 秒变成 20 秒,体感完全不是一回事。

我自己用 Opus Fast 的时候,开开关关好多次。GPT5.5的1.5 倍速度的那个档我直接关了,体感不明显,纯亏钱。但到了 2.5 倍那一档,就有些任务我愿意一直开着——主要是那种我盯着结果看的、需要反复迭代的活儿。

市场是诚实的。一个东西能卖出 6 倍价格,意味着真有人觉得它值。

二、单路速度和"堆机器"是两回事

这里得先分清楚两件事。

第一件事是"在一个固定速度下做更多并发"。同样 30 token/s 的吞吐,原本服务 100 个用户,现在服务 1000 个。这事相对好办。机器堆上去就行,可以用稍微弱一点的卡多买几张分摊,性价比能调出来。

第二件事是"让单个请求跑得更快"。原本 30 token/s,要让它跑到 400。这事就完全不一样了。你需要更高端的硬件,更激进的显存带宽,更尖端的封装工艺。这些不是"多花点钱堆几张卡"能解决的。你想加快单路,弱的卡堆 100 张也加不到一张顶级卡的速度。

我自己做过一段时间推理 infra 的实验,跑过几个开源模型自己优化。这两件事的成本曲线完全不一样。第一种近似线性,多花一倍钱基本能多出一倍并发。第二种是非线性的——前面 20% 的提速可能花你 50% 的成本,再往后越来越陡。

所以当你看到 Gemini 3.5 Flash 强调速度,或者 GLM 高速版冲到 400 token/s,他们说的不是"我们做了更便宜的版本",而是"我们把单路速度推到了一个新位置"。这件事的难度,是另一个量级。

三、5 倍是一条物种线

那为什么要拼命做这件事?

我自己想这个问题的时候会回到一个朴素的对比。

如果你想让一件事更快完成,传统上有几种办法。

第一种是请更厉害的人。但这条路有顶。世界上最强的人就那么几个,而且现在最聪明的模型已经接近这条线了。

第二种是让人加班。Agent 已经 7×24 干活了,这条线也到顶了。

第三种是分工,多投几个人进去。但你做过工程的就知道,加人不是线性的。加 1 个人不会变快 1 倍,加 10 个人也远远做不到 10 倍。中间要做拆解、要做交接、要协调、要处理参差不齐、要管浪费。新员工入职那个 ramp up 周期,很贵。做 multi-agent 编排的人现在感受应该最深。

到这里你会发现,传统加速的几条路都很难再往前推。

那剩下还能干什么?让一个模型,同一个员工,本身变快。

而且这种"同一个员工变快"是非线性的。

你想象一下,一个员工原本 1 个小时干完一件事。现在他 10 分钟干完,你以为只是省了 50 分钟?不止。

你会开始让他干那些原本因为"太慢了所以根本不会让他干"的事情。一些临时小需求,原本要等一个小时才能看到结果,你就懒得提了;现在 10 分钟出来,你一天能提十几个。这些原本根本不存在的任务,被速度激活了。

我前两天看到一个 demo,一个人戴着眼镜,对着屏幕上的视频指了一下,说"这个放大",背后 AI 直接写了一段代码把页面元素调整了。整个链路如果要 30 秒,你看了一眼大概就走开了,根本谈不上实时交互。但如果 5 秒钟内就完成,体感就完全不一样了,那变成了一个真正能用的产品。

这就是 50 token/s 到 400 token/s 的区别。8 倍速度,激活的是原本根本做不出来的产品。

5 倍以上的提速,是一条物种线。

四、专用化的回归

OK,承认了速度有价值,问题来了:怎么把速度做出来?

这就要讲讲 TileRT 的做法,它跟一年前业界的主流路径不太一样。

主流推理框架像 vLLM、TensorRT-LLM、SGLang 这一类,都是通用的。设计目标是"装下尽可能多的模型,在尽可能多的硬件上跑得还行"。这是软件工程长久以来的默认偏好:通用性优先,性能次之。

TileRT 反过来。它的做法是把整个推理图在编译期静态排好,作为一个常驻 Kernel 跑在 GPU 上,几乎不做运行时的动态调度。粒度细到 tile 级别的微任务,能把硬件压榨到接近物理极限。代价是什么?换个模型基本就废了,换个硬件也得大改。

DeepSeek 也是这条路。他们自己的推理引擎前期基于 vLLM,后来深度定制了一年多,几乎所有路径都为自己的 MoE 架构重写过一遍。前阵子他们开源了一部分,业界看完之后感叹的不是"这有多通用",而是"为一个模型能做到这么深"。

再往下看一层,硬件层早就在走这条路了。Groq 的 LPU 跑 Llama 4 Scout 能到 460 token/s,是 H100 的 3-4 倍。Cerebras 的 WSE-3 在 70B 模型上能跑到 1800 token/s,gpt-oss-120B 上接近 3000。这些都是专用硬件。它们不打算去跑各种各样的模型,就是为了某一类工作负载做到极致。

这条路其实在芯片行业讨论过很多年了。通用 CPU 还是专用 ASIC?通用芯片有它的好,但只要某个领域的需求足够大、生命周期足够长,专用化的投入就值得做。

软件层以前不太走这条路,主要是因为软件本身写起来就不便宜。专门为一个模型写一套推理栈,回本周期太长,很容易模型一换,你的软件就作废了。

现在情况变了。AI agent 自己能写软件了。"为一个特定的模型和硬件,从零搭一套最优的推理栈"这件事,成本一年比一年低。一旦这个成本压到某个临界点,专用化就会变成默认选项。

每一个有潜力的模型,未来都会有自己的专属推理引擎。每一代主流硬件,也都会有自己专门优化过的栈。你以前以为这只是"优化的最后 5%",现在它可能会变成 5 倍、10 倍的差距。

五、模型层的垂直整合,没办法避免了

把这些线索拉到一起。

智能这条线短期内还会涨,但单点比拼的边际效用在下降。再聪明 20% 的模型,跟把同一个模型加速 10 倍相比,对很多用户来说后者的价值大得多,尤其是对那些刚被速度激活出来的新场景。

所以下一阶段的竞争,会从"单点的智能"变成"端到端的能力"。模型 + 推理引擎 + 硬件,三件事捆在一起比拼。

如果你 400 token/s,我 30 token/s,就算我的模型聪明 20 倍,在很多场景里我也没法用。我会看着我自己最聪明的模型坐在那里慢慢吐字,你已经把整个产品体验交到用户手里了。

DeepSeek、智谱已经在做这件事。Anthropic、OpenAI 也在做。Google 应该是做得最早最深的,TPU + Gemini 这套组合早就在内部跑了。我猜接下来一两年,整个行业会越来越往这个方向走:模型公司必须有自己的推理栈,必须深入到硬件层;硬件公司必须深入到模型架构;中间通用的那层,会被两头挤压。

这条路对工程师来说其实挺刺激的。以前我们觉得"通用、可扩展、可移植"是软件工程的好品味。未来一段时间里可能恰恰相反,为特定模型、特定硬件,写一套最极致但"换个东西就不能用"的代码,会重新变成一件值得做的事。

软件工程的审美,要换一换了。


参考资料

推荐阅读

订阅博客更新

新文章发布时第一时间通知你,不会发送垃圾邮件。

仅用于博客更新通知,随时可以取消订阅。

评论

或匿名评论
0/2000