聊聊大模型定价：芯片锁死了供给，剩下的都是商业哲学

最近跟几个模型公司的朋友聊天，发现谁都在为定价的事头疼。

先回到经济学课本

价格在经济学里本职就是个供需调节器。东西贵了，需求降、供给升，最后成交量变小；东西便宜，反过来。来回拉扯几轮，市场摸到一个均衡点：没人想再涨，也没人想再降。

大模型这件事的奇怪之处在于，两边都不按这个套路出牌。

供给被芯片管制锁死了

国内市场对模型的需求两极分化：好模型的需求大得离谱，体量小一点的模型几乎没人用。背后的拽力主要是 coding——编程一活，智能体跟着活，工具调用和长链思考这些能力对最顶尖模型的依赖非常重，跟过去那种"chat API 大家都能用"的格局完全不一样。

但供给跟不上。

最顶尖的推理需要英伟达 Hopper（H100/H200）或更新的 Blackwell（B200/B300）。这批芯片现在的状况是：B200 和 B300 直接被美国禁运；H200 在 2026 年 1 月通过新规部分放开，但要交 25% 出口税，且总量被锁在历史出货量的一半。国内备案审批这关也卡得很严，今年早些时候深圳海关一度直接拒绝 H200 报关。

国产替代这条路也快不起来。华为最强的 Ascend 910C 今年的目标产能是 60 万片，看起来不少。但 HBM 才是真正的瓶颈——长鑫的 HBM 产能只够最终封装大约 25 到 30 万片 910C。新一代国产芯片基本要等 2027 年才会规模化交付。半导体的产能爬坡是慢功夫，靠技术突破和合资签字都加不了速。

这就出问题了。你哪怕把价格涨一倍、十倍，市场上也变不出更多的 B300。供给在这个市场上几乎没什么弹性。

短期能动的只有两层：模型层让推理更便宜更快，infra 层让卡的互联和调度更高效。这两件事都在做，效果也立竿见影——过去三年大模型推理的单 token 成本从 20 美元/百万 token 跌到 0.4 美元/百万 token，差不多 1000 倍。但要注意，这是供给曲线整体往下平移，不是供给弹性变好。技术突破是它发生就发生，跟你愿意付多少钱没关系。

需求被切成了三层完全不一样的形状

需求这一边更有意思。

最顶尖的那批人几乎没有价格弹性。 如果你的模型确实能解决他们解决不了的问题，贵 10% 完全无所谓。这跟当年 GPT-4 时代很像——那一小撮真正在用 AI 重构工作流的人，关心的是边界，不是单价。Seedance 2.0 是个挺典型的例子，每秒大约 1 块钱，听起来不便宜。但对一个原本一条精良视频要花上万元的商业用户，这个价格根本无所谓——一秒涨到一块五还是降到八毛，他无感。

最不重度的那批人极其敏感。 中国互联网过去培养出的习惯是先免费看看再说。这一层人原本可能是 DeepSeek 那个白菜价 API（输入 0.27 美元/百万 token、输出 1.10 美元/百万 token）的客户，几十块钱够他们玩好几个月。在他们眼里 9 块 9 的会员、第一批送 token 的活动都值得花一晚上去研究怎么最划算。这一层是真敏感。

真正难定价的是中间那一层。 重度的编程工程师、研究员、智能体折腾者。他们在乎价格，但更在乎单位时间产出的价值。在这一层定价就变得 tricky 起来，也正是这一层把 Coding Plan 这个争议拉了出来。

Coding Plan 是不是个伪命题

最近反复在朋友圈里听到一种观点：Coding Plan 就不应该存在。

这个观点不是没有道理。理由是：模型的成本就是 token 的成本，跟你包不包月没关系，本质上跟用电是一回事。然后实际操作里也确实出过不少幺蛾子——有些公司提供 Coding Plan，承诺给你的额度根本服务不过来，5 小时一周期里一半时间连不上、剩下时间限速，所谓"用完了额度"只是一种欺诈式体验。

听到这个讨论的时候我有点恍惚，因为这个争论太眼熟了。它就是当年平台经济里"会员制 vs 抽佣制"那场吵了好几年的老题，换了个壳。

我的结论跟当年差不多：两种都有它的存在价值。

Coding Plan 的好处不是给模型公司省事，是给购买方省心。注意，用户不一定是顾客——尤其在 to B 场景里，员工是用户，企业是顾客。一个企业要给 100 个工程师配 AI 编程助手，如果按 token 计费，光是预算管理就能折腾死财务和 IT。给每人配个固定额度的 Coding Plan，相当于把 token 计费这层不确定性彻底封装掉了，对企业是一个 hard budget 的硬约束。这才是 Coding Plan 真正解决的问题：不是定价，是不确定性管理。

想想看，这正是 Costco 模式的本质。Costco 的会员费贡献了它差不多三分之二的净营业利润，门店本身基本平进平出。但会员制带来的是另一种东西：它筛出了那批高频复购、高客单的核心用户，把"决定来不来"这件事提前在年初一次性做完了，省掉了后续每次购买的决策成本。Coding Plan 在 to B 场景里干的就是这件事。

Anthropic 和 OpenAI 是两套商业哲学

回头看 Coding Plan 这个产品的演化，挺有意思。

ChatGPT 第一天就同时上了 API 和会员两条线。但当年的 ChatGPT Plus，重点不是限额包月，而是"你充会员就能用更好的模型"——它是一种 c 端权益型会员，限额只是顺手做的限速。真正把 Coding Plan 这个名字立起来的是 Anthropic，跟着 Claude Code 这个产品走的，到 2026 年 2 月 Claude Code 单独的年化收入已经做到了 25 亿美元。

这背后是 Anthropic 跟 OpenAI 截然不同的两套商业逻辑。

Anthropic 走的是 target——瞄准最重度、付费意愿最强、粘性最高的那批用户，把模型质量推到顶。商业模式很像 Costco：靠会员费而不是单笔交易赚钱，把人筛进来之后用极强的产品体验把人锁住。这群人就是编程开发者。所以你会看到 Anthropic 在 2026 年 4 月的 ARR 已经做到 300 亿美元，首次超过 OpenAI 的 250 亿，80% 收入来自企业。

OpenAI 走的是 coverage——广覆盖。ChatGPT 周活已经超过 9 亿，多模态什么都做。c 端起家的逻辑决定了它的会员对应的是更广义的"功能使用权"，而不是 token 包额度。这两套思路在过去一年长成了完全不同的形态。

而当 Coding Plan 这种瞄准重度用户的模式真的跑通之后，问题就来了：用户太重度了，重度到 Anthropic 自己也供不起。今年 4 月 4 日 Anthropic 正式封禁了 Claude Pro 和 Max 订阅在 OpenClaw 这类第三方 agent 框架里的使用，理由很直白：subscriptions weren't built for the usage patterns of these third-party tools。当时数据估计有 13.5 万个 OpenClaw 实例在跑，订阅价和等量 API 费用之间差了 5 倍以上。这相当于一群人在用 Anthropic 的钱办 Anthropic 不愿意办的事，被切是迟早的。

国内某些原本对标 OpenAI 的公司也开始往 Anthropic 这个方向转。智谱在过去半年里把 GLM Coding Plan 的价格在 2 月和 4 月连涨了两次，订阅整体涨了 30% 到 60%，企业 API 涨幅 67% 到 100%。这不是它单纯想多收钱，是供给真的吃紧到了不得不调价的程度。

所以呢

把上面这些事拼起来，能得出几个不太"性感"但比较扎实的判断：

供给端短期内不可能有弹性。 涨价是趋势。模型公司能做的事是把模型变小、把推理变快、把 infra 变厚，这些都是把供给曲线整体往下推。但这跟"涨价能换更多供给"是两件事。

需求端的三层分化让"统一定价"变得不可能。 最顶尖的人不在乎贵，最浅尝的人不接受任何收费。中间那一层是真正在博弈的，他们又被分成了两类付费场景：自己花钱的散客和企业付钱的员工。前者更适合按量付费，后者更适合 Coding Plan。

两种模式不是你死我活，是各司其职。 喊"Coding Plan 应该消失"的人，其实是把企业场景里的不确定性管理低估了。喊"按量付费才叫真本事"的人，则是把散客场景里"看了价格表就退订"那种本能反应低估了。

要做到普惠 AGI，Coding Plan 这种模式跑不通——一个人吃掉一百个人的算力，再普惠也补贴不起。要做到极致体验，按量付费就拢不住企业——不是钱的问题，是预算管理的问题。这两条路任何一家想同时走通几乎不可能，所以才有了 Anthropic 和 OpenAI 这种程度的分化。

我现在看大模型公司的定价，跟看零售业看 Costco 和沃尔玛差不多——没什么对错，只是哲学不同。哪种路走到底，取决于公司想抓哪一类人，以及在那一类人身上能不能持续把价值做厚。

聊聊大模型定价：芯片锁死了供给，剩下的都是商业哲学

先回到经济学课本

供给被芯片管制锁死了

需求被切成了三层完全不一样的形状

Coding Plan 是不是个伪命题

Anthropic 和 OpenAI 是两套商业哲学

所以呢

参考资料

推荐阅读

订阅博客更新

评论