最近 token 经济这个词被讲得很热。AI 行业所有的商业模式最终都会收敛到一个共同的计量单位,就是 token。这个判断我自己也信。但有个前提总被略过:token 根本不是一个标准化的东西。
水有标准单位,电有标准单位,钱更不用说。token 不是。它更像汽油:92、95、98 是不同的油,价格不同,能跑的车也不同。把所有汽油都按"升"加起来报数,意义不大。
当前 AI 行业里很多看上去矛盾的现象,本质都是这件事。
一、智能是有档位的
把模型按智能水平大致分四档。
顶级。 海外以 OpenAI GPT-5.5、Anthropic Claude Opus 4.7 为代表。国内主要是智谱 GLM-5.1、Moonshot Kimi K2.6、DeepSeek V4-Pro。小米 MiMo-V2.5-Pro 算是个有点争议的存在,但用量和数据上确实在往上走,姑且也算一个。这一档参数从千亿到上万亿不等,需求几乎无限,付费意愿极强。涨价、限额、再涨价,用户该用还是用,反过来还在涌进来。智谱 2025 年报披露,GLM Coding Plan 半年里 token 调用涨 15 倍,付费开发者突破 24 万。这就是顶级 token 的真实需求曲线。
中等。 这一档最尴尬,几乎断档。能数得出来的就是 MiniMax M2.7、DeepSeek V4-Flash、小米 MiMo-V2.5 普通版等几个。体量适中,价格能便宜一个数量级,理论上性价比最好。但市场上没什么人在这一档真正使劲做。原因后面会讲。
中低。 以开源为主。阿里 Qwen 3.6 是代表,35B-A3B(MoE)、27B 稠密版都开了。Google 的 Gemma 4 也是这个档,从 E2B 到 31B 都有。
端侧。 几 B 参数甚至零点几 B,塞进手机或者本地一张消费卡就能跑。
第一个不均衡在这里。顶级在卷,挤得头破血流;中等断档;中低和端侧热闹但场景模糊。
二、速率是另一个维度,不是同一档的 token
档位画完,token 的标号才说了一半。
另一半是速率。同样是 GPT-5.5,你以 30 TPS 拿到和以 200 TPS 拿到,体感完全不是一回事。
第三方测速比较常用的 Artificial Analysis 上,2026 年的数字大致是这样:
| 档位 | 模型 | 输出 TPS |
|---|---|---|
| 旗舰常规 | GPT-5.5 (high) | ~68 |
| 旗舰常规 | Claude Opus 4.7 | ~48 |
| 旗舰常规 | DeepSeek V4-Pro | ~48 |
| 旗舰常规 | Kimi K2.6 | ~33 |
| 高速 | DeepSeek V4-Flash | ~126 |
| 高速 | Gemini 3.5 Flash | ~203 |
| 超高速 | GLM-5.1 高速版 | 400(官方) |
| 超高速 | Cerebras 跑 Kimi K2.6 | 981 |
我之前写过一篇《模型快 5 倍,就不再是同一个模型》。讲的就是 5 倍以上的提速会激活原本根本不存在的产品形态。这不是"快了一点点",是物种变化。
市场已经在用价格说话。Anthropic 的 Opus Fast:2.5 倍速度,6 倍价格。OpenAI 的 Priority Tier:2.5 倍价格。注意这些比例,价格涨幅明显超过速度涨幅。不是模型公司在贪,是真实的定价信号:市场里真有一群人,愿意为速度多付几倍。
智能档 × 速率档,叠在一起就是一个矩阵。每一格的 token 都不是同一种东西。
三、需求侧的两条主线,付费意愿天差地别
谁在烧这些顶级 token?基本就两条主线。
第一条:coding agent。全球增长最快、消耗最大的就是这一类。表现形式是 coding 智能体写代码解决特定问题。但实际拿来干什么不一定是写代码,很多人用 coding agent 干各种各样的事,只是这些事最终都通过"写代码"这个动作完成。
第二条:C 端智能体。Claude 的 app、ChatGPT 的 app、Microsoft Copilot,以及智谱新出的 AutoClaw(Claw Plan)这一类。AutoClaw 2026 年 3 月上线,20 天订阅破 40 万。它本质上跑的也是 coding agent,只是上面包了一层非技术用户友好的壳,让普通人也能"雇 AI 员工"。
两条线的付费意愿差别非常大。
coding agent 用户对智能的要求非常顶,Opus 4.7、GPT-5.5 那个档,差一点就不行。他们干的活值钱,省下来的时间也值钱,愿意为顶级 token 持续付费。粘性是另一回事:出了更好的模型,他们立刻换。
C 端智能体用户不一样。他们的任务大多不是高价值的,对价格敏感得多,对绝对智能的要求没那么死。一个"中等智能、性价比好、速度还过得去"的模型其实非常适合这一类。问题是这一档现在断档,没有真正能打的供给。所以Deepseek V4以超高性价比快速打了这一类的用户群,我注意到切换Deepseek这身边朋友非常多。
需求结构这样,模型公司的投入方向自然也跟着走。所以你看到顶级模型一直在喊算力紧缺,中等模型却几乎没人在做。
四、供给侧的奇怪错配:一卡难求和大量闲置同时存在
需求结构错配,会传染到算力市场。
顶级算力供不应求是显性的。
NVIDIA 的 Blackwell 系列(B200/GB200)老黄亲口确认"售罄到 2026 年年中",企业新单的交付排期已经 8-16 周。Meta 这一年的资本开支预计超 1000 亿美元,微软单季度接近 350 亿美元,都在抢这些芯片。国内市场上现在疯抢的是 B300 和 H200:B300 一台 700 万还买不到,月租推到 13-20 万;H200 2026 年 1 月解禁入华,首批 5000-10000 套模组很快被头部厂商抢光,集群交付排到 2027 Q2。前两代的 H100 反而冷下来了,没什么人在抢。
国产顶级芯片更夸张。华为最新的昇腾 950PR 2026 年 3 月才量产,全年 75 万颗的规划产能已经被字节(35 万)、阿里(20 万)、腾讯百度(10 万)、政企信创(10 万)整整齐齐全部锁定,订单排到 2027 年。单价约 1.6 万美元一片,FP4 算力 1.56 PFLOPS,单卡性能官方宣称是 H20 的 2.87 倍。这是国产 AI 芯片采购史上第一次出现完整年度产能被"包圆"。DeepSeek V4 开源的时候带着 8 款国产芯片做了 day-0 适配,把昇腾 NPU 和 NVIDIA GPU 在技术报告里并列;GLM-5 全程在昇腾 + MindSpore 上训出来,适配 7 款国产芯片。这是格局的事:把顶级模型架在国产芯片上,既是技术问题,也是供给问题。
隐性的另一面是中低端算力大量闲置。
PPIO 创始人姚欣公开讲过,部分国产 GPU 智算中心闲置率高达 80%。36 氪报道有些智算中心利用率只有 10-20%。新华网的定调更直接:"通用算力相对过剩,智能算力相对短缺",承认了结构性错配。市场价格也反映出来:A100 价格暴跌 50%+,4090 单卡时租掉到 1-2 元一小时,5090 也才 2.5 元上下。
但中低端算力的错配,其实是两个不同的卡点。
中端数据中心卡(H20、L20、华为 910B 这一类)的卡点在基础设施。推理框架对它们的优化优先级,远低于顶级卡。KV cache 管理、MoE 专家并行、FP8/FP4 精度支持,几条关键路径的成熟度都没跟上。硬件在那里,需求也在那里,就是 serve 不出顶级体验。
消费级 PCIe 卡(4090、5090、4090 48G 魔改)的卡点完全反过来。硬件其实能跑,vLLM 也已经支持 5090(要 CUDA 12.8 + 降回 FlashAttention 2,能凑合用)。真正缺的是为它们量身设计的好模型。70B Dense 这个档已经过时——2026 年 5 月排名前六的开源模型全是 MoE,Dense 在旗舰级几乎绝迹。MoE 总参动辄上百 B,消费卡装不下;蒸馏出来的小模型质量又追不上顶级。市场上没有"专门照顾 24G/32G/48G 显存约束"的高质量新模型供给。
所以你看到的画面是:4090 / 5090 价格跟数据中心卡比较便宜得过分,但拿来能跑的"中等智能"模型主流还是 Llama 3.3 70B 这种 2024 年末的老货。个人开发者本地实验、小团队 PoC、隐私敏感的本地部署还撑得住;想用这些卡做企业级中等推理,没有专门优化的新模型可用。
本质不是"算力总量不够",是"算力没办法跟需求对齐"。
以前行业外人士讲算力,习惯用"几 P 算力"来报数。这种报法在过去就很扯,现在在 AI 推理时代几乎完全失效了。同样是计算单元,互联、显存带宽、FP4/FP8 精度支持、KV cache 管理能力,这些都决定它能不能 serve 顶级模型。老一代卡堆 100 张,加不到一张顶级卡的单路速度。
你会看到一个奇怪的画面:一边是顶级模型的提供方在抢芯片,一边是机房里前两代的卡降价租不出去。一边一卡难求,一边大量闲置。
五、错配会被市场调节,但要花时间
这种错配不会一直在。两个不同的卡点,会被两条不同的市场力量推着走。
中端数据中心卡的基础设施短板,会被工程优先级推动。推理框架的优化方向跟着商业利益走,一旦中端模型需求起来,vLLM、SGLang、TensorRT-LLM 这些业内顶尖的推理技术资源迟早会被迫把 H20、L20、910B 的优化提到议程上。这件事不浪漫,但会发生。
消费卡的模型供给短板,靠蒸馏 + 小 MoE 这两条路在推。DeepSeek-V4 已经蒸馏出 9B 量级的版本,Qwen 系列长期在做。一旦有人把"32G 显存能跑、质量接近顶级"这件事真做出来,闲置的 4090 / 5090 立刻就有了去处。
还有一条线是国产芯片 + 国产模型的深度绑定。DeepSeek 和智谱都在走,技术上验证可行,一旦走通,中低端算力市场会有一波结构性的重新洗牌。
我比较乐观这件事会发生,只是需要花一点时间。可能几个季度,也可能一两年。这段时间里能把握住节奏的人,有一个结构性的窗口。
六、别用一个数字概括 token
回到开头那句。Token 经济这个词没毛病,但它远不是"卖水电"那么直观。
它更像加油站。汽油看上去是同一种东西,实际上是一个智能 × 速率的矩阵。再叠一层供给侧的算力分层错配,就是当下行业里很多看似矛盾的现象的真正成因:为什么模型公司在抢芯片,为什么有些智算中心在闲置,为什么 fast tier 能卖 6 倍价格,为什么中等智能模型迟迟没人做。
下次再看到"我们投了 N 个 P 的算力"或者"每月生产了 X 万亿 token"这种数字,先停一下,问问:哪一档智能,哪一档速率,匹配的是哪一档需求。
Token 不是一种东西。
参考资料
模型版本与定位
- OpenAI GPT-5.5 Instant 发布
- Claude Opus 4.7 — Anthropic
- 智谱 GLM-5.1 技术文档
- Moonshot Kimi K2.6 发布
- DeepSeek V4 — API Docs
- Simon Willison: DeepSeek V4—almost on the frontier
- 小米 MiMo-V2.5-Pro 官方
- MiniMax M2.5 发布
- Qwen 3.6-35B-A3B — ModelScope
- Google Gemma 4 发布
速率数据
- Artificial Analysis — GPT-5.5 (high)
- Artificial Analysis — Claude Opus 4.7
- Artificial Analysis — DeepSeek V4 Pro
- Artificial Analysis — DeepSeek V4 Flash
- Artificial Analysis — Kimi K2.6
- Artificial Analysis — Gemini 3.5 Flash
- 智谱 GLM-5.1 高速版 400 tokens/s 报道(IT 之家)
- Cerebras 跑 Kimi K2.6 达到 981 tokens/s
- Claude Opus Fast Mode: 2.5x 速度 / 6x 价格(Groundy)
- OpenAI Priority Processing 官方文档
智谱产品与财报
算力市场
- NVIDIA Blackwell sold out through mid-2026(FinancialContent)
- 国内 B300 服务器 700 万一台还抢不到(新浪财经)
- H200 在华销售解禁,企业买还是租(知乎)
- 2026 Q1 GPU 租赁市场深度研究
- 高端 GPU 供需错配驱动算力租赁高景气(华尔街见闻)
- 华为昇腾 950PR 量产 + 订单排到 2027(东方财富)
- 华为昇腾 AI 芯片三年路线图:950PR / 950DT / 960 / 970(OSCHINA)
- DeepSeek V4 全面换装华为昇腾 950PR(CSDN)
- PPIO 姚欣谈智算中心闲置率(雷峰网)
- 36 氪:智算中心利用率仅 10-20%
- 新华网:通用算力过剩,智能算力短缺
- A100 价格趋势报道
- RTX 4090 时租价格区间 1.45-2.29 元(搜狐 2026/3)
- RTX 5090 算力 2.5 元/卡/小时(共绩算力)
- RTX 4090 48G 魔改版评测(晨涧云)
- 2026 大模型格局:MoE 在旗舰级把 Dense 灭绝(QubitTool)
- vLLM 在 RTX 5090 上的部署指南(GitHub)
- 魔改 4090 用了一年:开发真香,生产翻车(知乎)
- DeepSeek V4 八款国产芯片 Day-0 适配
- GLM-5 适配 7 款国产芯片(观察者网)
