跳转到主内容
博客
聊聊大模型定价:芯片锁死了供给,剩下的都是商业哲学

聊聊大模型定价:芯片锁死了供给,剩下的都是商业哲学

价格本来是用来调节供需的,大模型这件事偏偏卡在一个奇怪的位置——供给被芯片管制锁死,需求被三类用户拉成完全不同的形状。Coding Plan 这种当年看起来理所当然的模式,现在反而被反复挑战。

关嘉伟关嘉伟6 分钟阅读
分享:

最近跟几个模型公司的朋友聊天,发现谁都在为定价的事头疼。

先回到经济学课本

价格在经济学里本职就是个供需调节器。东西贵了,需求降、供给升,最后成交量变小;东西便宜,反过来。来回拉扯几轮,市场摸到一个均衡点:没人想再涨,也没人想再降。

大模型这件事的奇怪之处在于,两边都不按这个套路出牌。

供给被芯片管制锁死了

国内市场对模型的需求两极分化:好模型的需求大得离谱,体量小一点的模型几乎没人用。背后的拽力主要是 coding——编程一活,智能体跟着活,工具调用和长链思考这些能力对最顶尖模型的依赖非常重,跟过去那种"chat API 大家都能用"的格局完全不一样。

但供给跟不上。

最顶尖的推理需要英伟达 Hopper(H100/H200)或更新的 Blackwell(B200/B300)。这批芯片现在的状况是:B200 和 B300 直接被美国禁运;H200 在 2026 年 1 月通过新规部分放开,但要交 25% 出口税,且总量被锁在历史出货量的一半。国内备案审批这关也卡得很严,今年早些时候深圳海关一度直接拒绝 H200 报关

国产替代这条路也快不起来。华为最强的 Ascend 910C 今年的目标产能是 60 万片,看起来不少。但 HBM 才是真正的瓶颈——长鑫的 HBM 产能只够最终封装大约 25 到 30 万片 910C。新一代国产芯片基本要等 2027 年才会规模化交付。半导体的产能爬坡是慢功夫,靠技术突破和合资签字都加不了速。

这就出问题了。你哪怕把价格涨一倍、十倍,市场上也变不出更多的 B300。供给在这个市场上几乎没什么弹性。

短期能动的只有两层:模型层让推理更便宜更快,infra 层让卡的互联和调度更高效。这两件事都在做,效果也立竿见影——过去三年大模型推理的单 token 成本从 20 美元/百万 token 跌到 0.4 美元/百万 token,差不多 1000 倍。但要注意,这是供给曲线整体往下平移,不是供给弹性变好。技术突破是它发生就发生,跟你愿意付多少钱没关系。

需求被切成了三层完全不一样的形状

需求这一边更有意思。

最顶尖的那批人几乎没有价格弹性。 如果你的模型确实能解决他们解决不了的问题,贵 10% 完全无所谓。这跟当年 GPT-4 时代很像——那一小撮真正在用 AI 重构工作流的人,关心的是边界,不是单价。Seedance 2.0 是个挺典型的例子,每秒大约 1 块钱,听起来不便宜。但对一个原本一条精良视频要花上万元的商业用户,这个价格根本无所谓——一秒涨到一块五还是降到八毛,他无感。

最不重度的那批人极其敏感。 中国互联网过去培养出的习惯是先免费看看再说。这一层人原本可能是 DeepSeek 那个白菜价 API(输入 0.27 美元/百万 token、输出 1.10 美元/百万 token)的客户,几十块钱够他们玩好几个月。在他们眼里 9 块 9 的会员、第一批送 token 的活动都值得花一晚上去研究怎么最划算。这一层是真敏感。

真正难定价的是中间那一层。 重度的编程工程师、研究员、智能体折腾者。他们在乎价格,但更在乎单位时间产出的价值。在这一层定价就变得 tricky 起来,也正是这一层把 Coding Plan 这个争议拉了出来。

Coding Plan 是不是个伪命题

最近反复在朋友圈里听到一种观点:Coding Plan 就不应该存在。

这个观点不是没有道理。理由是:模型的成本就是 token 的成本,跟你包不包月没关系,本质上跟用电是一回事。然后实际操作里也确实出过不少幺蛾子——有些公司提供 Coding Plan,承诺给你的额度根本服务不过来,5 小时一周期里一半时间连不上、剩下时间限速,所谓"用完了额度"只是一种欺诈式体验。

听到这个讨论的时候我有点恍惚,因为这个争论太眼熟了。它就是当年平台经济里"会员制 vs 抽佣制"那场吵了好几年的老题,换了个壳。

我的结论跟当年差不多:两种都有它的存在价值。

Coding Plan 的好处不是给模型公司省事,是给购买方省心。注意,用户不一定是顾客——尤其在 to B 场景里,员工是用户,企业是顾客。一个企业要给 100 个工程师配 AI 编程助手,如果按 token 计费,光是预算管理就能折腾死财务和 IT。给每人配个固定额度的 Coding Plan,相当于把 token 计费这层不确定性彻底封装掉了,对企业是一个 hard budget 的硬约束。这才是 Coding Plan 真正解决的问题:不是定价,是不确定性管理。

想想看,这正是 Costco 模式的本质。Costco 的会员费贡献了它差不多三分之二的净营业利润,门店本身基本平进平出。但会员制带来的是另一种东西:它筛出了那批高频复购、高客单的核心用户,把"决定来不来"这件事提前在年初一次性做完了,省掉了后续每次购买的决策成本。Coding Plan 在 to B 场景里干的就是这件事。

Anthropic 和 OpenAI 是两套商业哲学

回头看 Coding Plan 这个产品的演化,挺有意思。

ChatGPT 第一天就同时上了 API 和会员两条线。但当年的 ChatGPT Plus,重点不是限额包月,而是"你充会员就能用更好的模型"——它是一种 c 端权益型会员,限额只是顺手做的限速。真正把 Coding Plan 这个名字立起来的是 Anthropic,跟着 Claude Code 这个产品走的,到 2026 年 2 月 Claude Code 单独的年化收入已经做到了 25 亿美元

这背后是 Anthropic 跟 OpenAI 截然不同的两套商业逻辑。

Anthropic 走的是 target——瞄准最重度、付费意愿最强、粘性最高的那批用户,把模型质量推到顶。商业模式很像 Costco:靠会员费而不是单笔交易赚钱,把人筛进来之后用极强的产品体验把人锁住。这群人就是编程开发者。所以你会看到 Anthropic 在 2026 年 4 月的 ARR 已经做到 300 亿美元,首次超过 OpenAI 的 250 亿,80% 收入来自企业。

OpenAI 走的是 coverage——广覆盖。ChatGPT 周活已经超过 9 亿,多模态什么都做。c 端起家的逻辑决定了它的会员对应的是更广义的"功能使用权",而不是 token 包额度。这两套思路在过去一年长成了完全不同的形态。

而当 Coding Plan 这种瞄准重度用户的模式真的跑通之后,问题就来了:用户太重度了,重度到 Anthropic 自己也供不起。今年 4 月 4 日 Anthropic 正式 封禁了 Claude Pro 和 Max 订阅在 OpenClaw 这类第三方 agent 框架里的使用,理由很直白:subscriptions weren't built for the usage patterns of these third-party tools。当时数据估计有 13.5 万个 OpenClaw 实例在跑,订阅价和等量 API 费用之间差了 5 倍以上。这相当于一群人在用 Anthropic 的钱办 Anthropic 不愿意办的事,被切是迟早的。

国内某些原本对标 OpenAI 的公司也开始往 Anthropic 这个方向转。智谱在过去半年里 把 GLM Coding Plan 的价格在 2 月和 4 月连涨了两次,订阅整体涨了 30% 到 60%,企业 API 涨幅 67% 到 100%。这不是它单纯想多收钱,是供给真的吃紧到了不得不调价的程度。

所以呢

把上面这些事拼起来,能得出几个不太"性感"但比较扎实的判断:

供给端短期内不可能有弹性。 涨价是趋势。模型公司能做的事是把模型变小、把推理变快、把 infra 变厚,这些都是把供给曲线整体往下推。但这跟"涨价能换更多供给"是两件事。

需求端的三层分化让"统一定价"变得不可能。 最顶尖的人不在乎贵,最浅尝的人不接受任何收费。中间那一层是真正在博弈的,他们又被分成了两类付费场景:自己花钱的散客和企业付钱的员工。前者更适合按量付费,后者更适合 Coding Plan。

两种模式不是你死我活,是各司其职。 喊"Coding Plan 应该消失"的人,其实是把企业场景里的不确定性管理低估了。喊"按量付费才叫真本事"的人,则是把散客场景里"看了价格表就退订"那种本能反应低估了。

要做到普惠 AGI,Coding Plan 这种模式跑不通——一个人吃掉一百个人的算力,再普惠也补贴不起。要做到极致体验,按量付费就拢不住企业——不是钱的问题,是预算管理的问题。这两条路任何一家想同时走通几乎不可能,所以才有了 Anthropic 和 OpenAI 这种程度的分化。

我现在看大模型公司的定价,跟看零售业看 Costco 和沃尔玛差不多——没什么对错,只是哲学不同。哪种路走到底,取决于公司想抓哪一类人,以及在那一类人身上能不能持续把价值做厚。


参考资料

推荐阅读

订阅博客更新

新文章发布时第一时间通知你,不会发送垃圾邮件。

仅用于博客更新通知,随时可以取消订阅。

评论

或匿名评论
0/2000