跳转到主内容
博客
Token 不是一种东西

Token 不是一种东西

GPT-5.5、Opus 4.7 一档需求几乎无限,中等模型断档,中低端算力大量闲置。Token 经济听起来像卖电力,其实更像加油站:98 号汽油断货了,柴油桶装满了但需要自助,95 号装满了但空置。

关嘉伟关嘉伟7 分钟阅读
分享:

最近 token 经济这个词被讲得很热。AI 行业所有的商业模式最终都会收敛到一个共同的计量单位,就是 token。这个判断我自己也信。但有个前提总被略过:token 根本不是一个标准化的东西。

水有标准单位,电有标准单位,钱更不用说。token 不是。它更像汽油:92、95、98 是不同的油,价格不同,能跑的车也不同。把所有汽油都按"升"加起来报数,意义不大。

当前 AI 行业里很多看上去矛盾的现象,本质都是这件事。

一、智能是有档位的

把模型按智能水平大致分四档。

顶级。 海外以 OpenAI GPT-5.5、Anthropic Claude Opus 4.7 为代表。国内主要是智谱 GLM-5.1、Moonshot Kimi K2.6、DeepSeek V4-Pro。小米 MiMo-V2.5-Pro 算是个有点争议的存在,但用量和数据上确实在往上走,姑且也算一个。这一档参数从千亿到上万亿不等,需求几乎无限,付费意愿极强。涨价、限额、再涨价,用户该用还是用,反过来还在涌进来。智谱 2025 年报披露,GLM Coding Plan 半年里 token 调用涨 15 倍,付费开发者突破 24 万。这就是顶级 token 的真实需求曲线。

中等。 这一档最尴尬,几乎断档。能数得出来的就是 MiniMax M2.7、DeepSeek V4-Flash、小米 MiMo-V2.5 普通版等几个。体量适中,价格能便宜一个数量级,理论上性价比最好。但市场上没什么人在这一档真正使劲做。原因后面会讲。

中低。 以开源为主。阿里 Qwen 3.6 是代表,35B-A3B(MoE)、27B 稠密版都开了。Google 的 Gemma 4 也是这个档,从 E2B 到 31B 都有。

端侧。 几 B 参数甚至零点几 B,塞进手机或者本地一张消费卡就能跑。

第一个不均衡在这里。顶级在卷,挤得头破血流;中等断档;中低和端侧热闹但场景模糊。

二、速率是另一个维度,不是同一档的 token

档位画完,token 的标号才说了一半。

另一半是速率。同样是 GPT-5.5,你以 30 TPS 拿到和以 200 TPS 拿到,体感完全不是一回事。

第三方测速比较常用的 Artificial Analysis 上,2026 年的数字大致是这样:

档位模型输出 TPS
旗舰常规GPT-5.5 (high)~68
旗舰常规Claude Opus 4.7~48
旗舰常规DeepSeek V4-Pro~48
旗舰常规Kimi K2.6~33
高速DeepSeek V4-Flash~126
高速Gemini 3.5 Flash~203
超高速GLM-5.1 高速版400(官方)
超高速Cerebras 跑 Kimi K2.6981

我之前写过一篇《模型快 5 倍,就不再是同一个模型》。讲的就是 5 倍以上的提速会激活原本根本不存在的产品形态。这不是"快了一点点",是物种变化。

市场已经在用价格说话。Anthropic 的 Opus Fast:2.5 倍速度,6 倍价格。OpenAI 的 Priority Tier:2.5 倍价格。注意这些比例,价格涨幅明显超过速度涨幅。不是模型公司在贪,是真实的定价信号:市场里真有一群人,愿意为速度多付几倍。

智能档 × 速率档,叠在一起就是一个矩阵。每一格的 token 都不是同一种东西。

三、需求侧的两条主线,付费意愿天差地别

谁在烧这些顶级 token?基本就两条主线。

第一条:coding agent。全球增长最快、消耗最大的就是这一类。表现形式是 coding 智能体写代码解决特定问题。但实际拿来干什么不一定是写代码,很多人用 coding agent 干各种各样的事,只是这些事最终都通过"写代码"这个动作完成。

第二条:C 端智能体。Claude 的 app、ChatGPT 的 app、Microsoft Copilot,以及智谱新出的 AutoClaw(Claw Plan)这一类。AutoClaw 2026 年 3 月上线,20 天订阅破 40 万。它本质上跑的也是 coding agent,只是上面包了一层非技术用户友好的壳,让普通人也能"雇 AI 员工"。

两条线的付费意愿差别非常大。

coding agent 用户对智能的要求非常顶,Opus 4.7、GPT-5.5 那个档,差一点就不行。他们干的活值钱,省下来的时间也值钱,愿意为顶级 token 持续付费。粘性是另一回事:出了更好的模型,他们立刻换。

C 端智能体用户不一样。他们的任务大多不是高价值的,对价格敏感得多,对绝对智能的要求没那么死。一个"中等智能、性价比好、速度还过得去"的模型其实非常适合这一类。问题是这一档现在断档,没有真正能打的供给。所以Deepseek V4以超高性价比快速打了这一类的用户群,我注意到切换Deepseek这身边朋友非常多。

需求结构这样,模型公司的投入方向自然也跟着走。所以你看到顶级模型一直在喊算力紧缺,中等模型却几乎没人在做。

四、供给侧的奇怪错配:一卡难求和大量闲置同时存在

需求结构错配,会传染到算力市场。

顶级算力供不应求是显性的。

NVIDIA 的 Blackwell 系列(B200/GB200)老黄亲口确认"售罄到 2026 年年中",企业新单的交付排期已经 8-16 周。Meta 这一年的资本开支预计超 1000 亿美元,微软单季度接近 350 亿美元,都在抢这些芯片。国内市场上现在疯抢的是 B300 和 H200:B300 一台 700 万还买不到,月租推到 13-20 万;H200 2026 年 1 月解禁入华,首批 5000-10000 套模组很快被头部厂商抢光,集群交付排到 2027 Q2。前两代的 H100 反而冷下来了,没什么人在抢。

国产顶级芯片更夸张。华为最新的昇腾 950PR 2026 年 3 月才量产,全年 75 万颗的规划产能已经被字节(35 万)、阿里(20 万)、腾讯百度(10 万)、政企信创(10 万)整整齐齐全部锁定,订单排到 2027 年。单价约 1.6 万美元一片,FP4 算力 1.56 PFLOPS,单卡性能官方宣称是 H20 的 2.87 倍。这是国产 AI 芯片采购史上第一次出现完整年度产能被"包圆"。DeepSeek V4 开源的时候带着 8 款国产芯片做了 day-0 适配,把昇腾 NPU 和 NVIDIA GPU 在技术报告里并列;GLM-5 全程在昇腾 + MindSpore 上训出来,适配 7 款国产芯片。这是格局的事:把顶级模型架在国产芯片上,既是技术问题,也是供给问题。

隐性的另一面是中低端算力大量闲置。

PPIO 创始人姚欣公开讲过,部分国产 GPU 智算中心闲置率高达 80%。36 氪报道有些智算中心利用率只有 10-20%。新华网的定调更直接:"通用算力相对过剩,智能算力相对短缺",承认了结构性错配。市场价格也反映出来:A100 价格暴跌 50%+,4090 单卡时租掉到 1-2 元一小时,5090 也才 2.5 元上下。

但中低端算力的错配,其实是两个不同的卡点。

中端数据中心卡(H20、L20、华为 910B 这一类)的卡点在基础设施。推理框架对它们的优化优先级,远低于顶级卡。KV cache 管理、MoE 专家并行、FP8/FP4 精度支持,几条关键路径的成熟度都没跟上。硬件在那里,需求也在那里,就是 serve 不出顶级体验。

消费级 PCIe 卡(4090、5090、4090 48G 魔改)的卡点完全反过来。硬件其实能跑,vLLM 也已经支持 5090(要 CUDA 12.8 + 降回 FlashAttention 2,能凑合用)。真正缺的是为它们量身设计的好模型。70B Dense 这个档已经过时——2026 年 5 月排名前六的开源模型全是 MoE,Dense 在旗舰级几乎绝迹。MoE 总参动辄上百 B,消费卡装不下;蒸馏出来的小模型质量又追不上顶级。市场上没有"专门照顾 24G/32G/48G 显存约束"的高质量新模型供给。

所以你看到的画面是:4090 / 5090 价格跟数据中心卡比较便宜得过分,但拿来能跑的"中等智能"模型主流还是 Llama 3.3 70B 这种 2024 年末的老货。个人开发者本地实验、小团队 PoC、隐私敏感的本地部署还撑得住;想用这些卡做企业级中等推理,没有专门优化的新模型可用。

本质不是"算力总量不够",是"算力没办法跟需求对齐"。

以前行业外人士讲算力,习惯用"几 P 算力"来报数。这种报法在过去就很扯,现在在 AI 推理时代几乎完全失效了。同样是计算单元,互联、显存带宽、FP4/FP8 精度支持、KV cache 管理能力,这些都决定它能不能 serve 顶级模型。老一代卡堆 100 张,加不到一张顶级卡的单路速度。

你会看到一个奇怪的画面:一边是顶级模型的提供方在抢芯片,一边是机房里前两代的卡降价租不出去。一边一卡难求,一边大量闲置。

五、错配会被市场调节,但要花时间

这种错配不会一直在。两个不同的卡点,会被两条不同的市场力量推着走。

中端数据中心卡的基础设施短板,会被工程优先级推动。推理框架的优化方向跟着商业利益走,一旦中端模型需求起来,vLLM、SGLang、TensorRT-LLM 这些业内顶尖的推理技术资源迟早会被迫把 H20、L20、910B 的优化提到议程上。这件事不浪漫,但会发生。

消费卡的模型供给短板,靠蒸馏 + 小 MoE 这两条路在推。DeepSeek-V4 已经蒸馏出 9B 量级的版本,Qwen 系列长期在做。一旦有人把"32G 显存能跑、质量接近顶级"这件事真做出来,闲置的 4090 / 5090 立刻就有了去处。

还有一条线是国产芯片 + 国产模型的深度绑定。DeepSeek 和智谱都在走,技术上验证可行,一旦走通,中低端算力市场会有一波结构性的重新洗牌。

我比较乐观这件事会发生,只是需要花一点时间。可能几个季度,也可能一两年。这段时间里能把握住节奏的人,有一个结构性的窗口。

六、别用一个数字概括 token

回到开头那句。Token 经济这个词没毛病,但它远不是"卖水电"那么直观。

它更像加油站。汽油看上去是同一种东西,实际上是一个智能 × 速率的矩阵。再叠一层供给侧的算力分层错配,就是当下行业里很多看似矛盾的现象的真正成因:为什么模型公司在抢芯片,为什么有些智算中心在闲置,为什么 fast tier 能卖 6 倍价格,为什么中等智能模型迟迟没人做。

下次再看到"我们投了 N 个 P 的算力"或者"每月生产了 X 万亿 token"这种数字,先停一下,问问:哪一档智能,哪一档速率,匹配的是哪一档需求。

Token 不是一种东西。


参考资料

模型版本与定位

速率数据

智谱产品与财报

算力市场

推荐阅读

订阅博客更新

新文章发布时第一时间通知你,不会发送垃圾邮件。

仅用于博客更新通知,随时可以取消订阅。

评论

或匿名评论
0/2000