Token 不是一种东西

最近 token 经济这个词被讲得很热。AI 行业所有的商业模式最终都会收敛到一个共同的计量单位，就是 token。这个判断我自己也信。但有个前提总被略过：token 根本不是一个标准化的东西。

水有标准单位，电有标准单位，钱更不用说。token 不是。它更像汽油：92、95、98 是不同的油，价格不同，能跑的车也不同。把所有汽油都按"升"加起来报数，意义不大。

当前 AI 行业里很多看上去矛盾的现象，本质都是这件事。

一、智能是有档位的

把模型按智能水平大致分四档。

顶级。 海外以 OpenAI GPT-5.5、Anthropic Claude Opus 4.7 为代表。国内主要是智谱 GLM-5.1、Moonshot Kimi K2.6、DeepSeek V4-Pro。小米 MiMo-V2.5-Pro 算是个有点争议的存在，但用量和数据上确实在往上走，姑且也算一个。这一档参数从千亿到上万亿不等，需求几乎无限，付费意愿极强。涨价、限额、再涨价，用户该用还是用，反过来还在涌进来。智谱 2025 年报披露，GLM Coding Plan 半年里 token 调用涨 15 倍，付费开发者突破 24 万。这就是顶级 token 的真实需求曲线。

中等。 这一档最尴尬，几乎断档。能数得出来的就是 MiniMax M2.7、DeepSeek V4-Flash、小米 MiMo-V2.5 普通版等几个。体量适中，价格能便宜一个数量级，理论上性价比最好。但市场上没什么人在这一档真正使劲做。原因后面会讲。

中低。 以开源为主。阿里 Qwen 3.6 是代表，35B-A3B（MoE）、27B 稠密版都开了。Google 的 Gemma 4 也是这个档，从 E2B 到 31B 都有。

端侧。 几 B 参数甚至零点几 B，塞进手机或者本地一张消费卡就能跑。

第一个不均衡在这里。顶级在卷，挤得头破血流；中等断档；中低和端侧热闹但场景模糊。

二、速率是另一个维度，不是同一档的 token

档位画完，token 的标号才说了一半。

另一半是速率。同样是 GPT-5.5，你以 30 TPS 拿到和以 200 TPS 拿到，体感完全不是一回事。

第三方测速比较常用的 Artificial Analysis 上，2026 年的数字大致是这样：

档位	模型	输出 TPS
旗舰常规	GPT-5.5 (high)	~68
旗舰常规	Claude Opus 4.7	~48
旗舰常规	DeepSeek V4-Pro	~48
旗舰常规	Kimi K2.6	~33
高速	DeepSeek V4-Flash	~126
高速	Gemini 3.5 Flash	~203
超高速	GLM-5.1 高速版	400（官方）
超高速	Cerebras 跑 Kimi K2.6	981

我之前写过一篇《模型快 5 倍，就不再是同一个模型》。讲的就是 5 倍以上的提速会激活原本根本不存在的产品形态。这不是"快了一点点"，是物种变化。

市场已经在用价格说话。Anthropic 的 Opus Fast：2.5 倍速度，6 倍价格。OpenAI 的 Priority Tier：2.5 倍价格。注意这些比例，价格涨幅明显超过速度涨幅。不是模型公司在贪，是真实的定价信号：市场里真有一群人，愿意为速度多付几倍。

智能档 × 速率档，叠在一起就是一个矩阵。每一格的 token 都不是同一种东西。

三、需求侧的两条主线，付费意愿天差地别

谁在烧这些顶级 token？基本就两条主线。

第一条：coding agent。全球增长最快、消耗最大的就是这一类。表现形式是 coding 智能体写代码解决特定问题。但实际拿来干什么不一定是写代码，很多人用 coding agent 干各种各样的事，只是这些事最终都通过"写代码"这个动作完成。

第二条：C 端智能体。Claude 的 app、ChatGPT 的 app、Microsoft Copilot，以及智谱新出的 AutoClaw（Claw Plan）这一类。AutoClaw 2026 年 3 月上线，20 天订阅破 40 万。它本质上跑的也是 coding agent，只是上面包了一层非技术用户友好的壳，让普通人也能"雇 AI 员工"。

两条线的付费意愿差别非常大。

coding agent 用户对智能的要求非常顶，Opus 4.7、GPT-5.5 那个档，差一点就不行。他们干的活值钱，省下来的时间也值钱，愿意为顶级 token 持续付费。粘性是另一回事：出了更好的模型，他们立刻换。

C 端智能体用户不一样。他们的任务大多不是高价值的，对价格敏感得多，对绝对智能的要求没那么死。一个"中等智能、性价比好、速度还过得去"的模型其实非常适合这一类。问题是这一档现在断档，没有真正能打的供给。所以Deepseek V4以超高性价比快速打了这一类的用户群，我注意到切换Deepseek这身边朋友非常多。

需求结构这样，模型公司的投入方向自然也跟着走。所以你看到顶级模型一直在喊算力紧缺，中等模型却几乎没人在做。

四、供给侧的奇怪错配：一卡难求和大量闲置同时存在

需求结构错配，会传染到算力市场。

顶级算力供不应求是显性的。

NVIDIA 的 Blackwell 系列（B200/GB200）老黄亲口确认"售罄到 2026 年年中"，企业新单的交付排期已经 8-16 周。Meta 这一年的资本开支预计超 1000 亿美元，微软单季度接近 350 亿美元，都在抢这些芯片。国内市场上现在疯抢的是 B300 和 H200：B300 一台 700 万还买不到，月租推到 13-20 万；H200 2026 年 1 月解禁入华，首批 5000-10000 套模组很快被头部厂商抢光，集群交付排到 2027 Q2。前两代的 H100 反而冷下来了，没什么人在抢。

国产顶级芯片更夸张。华为最新的昇腾 950PR 2026 年 3 月才量产，全年 75 万颗的规划产能已经被字节（35 万）、阿里（20 万）、腾讯百度（10 万）、政企信创（10 万）整整齐齐全部锁定，订单排到 2027 年。单价约 1.6 万美元一片，FP4 算力 1.56 PFLOPS，单卡性能官方宣称是 H20 的 2.87 倍。这是国产 AI 芯片采购史上第一次出现完整年度产能被"包圆"。DeepSeek V4 开源的时候带着 8 款国产芯片做了 day-0 适配，把昇腾 NPU 和 NVIDIA GPU 在技术报告里并列；GLM-5 全程在昇腾 + MindSpore 上训出来，适配 7 款国产芯片。这是格局的事：把顶级模型架在国产芯片上，既是技术问题，也是供给问题。

隐性的另一面是中低端算力大量闲置。

PPIO 创始人姚欣公开讲过，部分国产 GPU 智算中心闲置率高达 80%。36 氪报道有些智算中心利用率只有 10-20%。新华网的定调更直接："通用算力相对过剩，智能算力相对短缺"，承认了结构性错配。市场价格也反映出来：A100 价格暴跌 50%+，4090 单卡时租掉到 1-2 元一小时，5090 也才 2.5 元上下。

但中低端算力的错配，其实是两个不同的卡点。

中端数据中心卡（H20、L20、华为 910B 这一类）的卡点在基础设施。推理框架对它们的优化优先级，远低于顶级卡。KV cache 管理、MoE 专家并行、FP8/FP4 精度支持，几条关键路径的成熟度都没跟上。硬件在那里，需求也在那里，就是 serve 不出顶级体验。

消费级 PCIe 卡（4090、5090、4090 48G 魔改）的卡点完全反过来。硬件其实能跑，vLLM 也已经支持 5090（要 CUDA 12.8 + 降回 FlashAttention 2，能凑合用）。真正缺的是为它们量身设计的好模型。70B Dense 这个档已经过时——2026 年 5 月排名前六的开源模型全是 MoE，Dense 在旗舰级几乎绝迹。MoE 总参动辄上百 B，消费卡装不下；蒸馏出来的小模型质量又追不上顶级。市场上没有"专门照顾 24G/32G/48G 显存约束"的高质量新模型供给。

所以你看到的画面是：4090 / 5090 价格跟数据中心卡比较便宜得过分，但拿来能跑的"中等智能"模型主流还是 Llama 3.3 70B 这种 2024 年末的老货。个人开发者本地实验、小团队 PoC、隐私敏感的本地部署还撑得住；想用这些卡做企业级中等推理，没有专门优化的新模型可用。

本质不是"算力总量不够"，是"算力没办法跟需求对齐"。

以前行业外人士讲算力，习惯用"几 P 算力"来报数。这种报法在过去就很扯，现在在 AI 推理时代几乎完全失效了。同样是计算单元，互联、显存带宽、FP4/FP8 精度支持、KV cache 管理能力，这些都决定它能不能 serve 顶级模型。老一代卡堆 100 张，加不到一张顶级卡的单路速度。

你会看到一个奇怪的画面：一边是顶级模型的提供方在抢芯片，一边是机房里前两代的卡降价租不出去。一边一卡难求，一边大量闲置。

五、错配会被市场调节，但要花时间

这种错配不会一直在。两个不同的卡点，会被两条不同的市场力量推着走。

中端数据中心卡的基础设施短板，会被工程优先级推动。推理框架的优化方向跟着商业利益走，一旦中端模型需求起来，vLLM、SGLang、TensorRT-LLM 这些业内顶尖的推理技术资源迟早会被迫把 H20、L20、910B 的优化提到议程上。这件事不浪漫，但会发生。

消费卡的模型供给短板，靠蒸馏 + 小 MoE 这两条路在推。DeepSeek-V4 已经蒸馏出 9B 量级的版本，Qwen 系列长期在做。一旦有人把"32G 显存能跑、质量接近顶级"这件事真做出来，闲置的 4090 / 5090 立刻就有了去处。

还有一条线是国产芯片 + 国产模型的深度绑定。DeepSeek 和智谱都在走，技术上验证可行，一旦走通，中低端算力市场会有一波结构性的重新洗牌。

我比较乐观这件事会发生，只是需要花一点时间。可能几个季度，也可能一两年。这段时间里能把握住节奏的人，有一个结构性的窗口。

六、别用一个数字概括 token

回到开头那句。Token 经济这个词没毛病，但它远不是"卖水电"那么直观。

它更像加油站。汽油看上去是同一种东西，实际上是一个智能 × 速率的矩阵。再叠一层供给侧的算力分层错配，就是当下行业里很多看似矛盾的现象的真正成因：为什么模型公司在抢芯片，为什么有些智算中心在闲置，为什么 fast tier 能卖 6 倍价格，为什么中等智能模型迟迟没人做。

下次再看到"我们投了 N 个 P 的算力"或者"每月生产了 X 万亿 token"这种数字，先停一下，问问：哪一档智能，哪一档速率，匹配的是哪一档需求。

Token 不是一种东西。

参考资料

模型版本与定位

速率数据

智谱产品与财报

算力市场