前阵子我们团队在推理引擎上研究一个优化。
具体研究的是什么不重要,反正是那种很闷的活:盯着 profiler 看了快三周,在调度和显存上一点点抠,最后吞吐提了几个点。
几个点能干嘛?放我刚入行那会儿,几乎啥也干不了。可这回不一样。某天早上我们把它合进主干、灰度上线,第二天打开看板,那几个点已经变成了实打实的钱。同样的卡、同样的模型、同样的客户,单位 token 的成本降了几个点,毛利就厚几个点。从上线那天起,它就开始记账。
一个底层优化,从团队某个00后脑袋里的一个念头,到变成报表上的利润,中间只隔了一个晚上。
这事要是搁五年前,根本不敢想。
路径短,生命周期也短
这几个月跟朋友聊天,话题绕来绕去,最后总会落到同一句感慨上:我们大概是赶上了一个挺特殊的时代。
特殊在哪儿?你翻遍历史,也很难再找出第二个时代,能让技术上的领先这么快就兑换成商业影响力、竞争优势、甚至直接的利润。短到什么程度?一家模型公司,今天基本只需要操心一件事:把模型训得足够聪明,推出来,备足算力供 token,再顺手开源。剩下的影响力、收入、估值,会在很短的时间里自己长出来。
代价是,这条链的另一头一样短。每一代模型的当红期,正被压到三到六个月,这还是乐观估计。很多时候,一个模型从万众瞩目到无人再提,也就一到三个月。
这半年,风向换得有多快
去年 11 月,Google 甩出 Gemini 3,竞技场屠榜,连 OpenAI 内部都拉响了 "Code Red"。那阵子你点开任何一个群,满屏都在跪 Gemini。半年过去,话题早换了人。倒不是它不行了,它用户还在涨,是这条赛道的聚光灯本来就只打三个月。
再往前一点,Claude Opus 4.6 出来的时候,圈里圈外都觉得"改变世界就靠它了",那水平当时确实吊打一片。然后 4.7、4.8 一路下来,叫好的、骂的,全跟上来了。
OpenAI 更戏剧。它的编程能力一直被人嫌弃,早期那个 Codex 我自己用过一阵就退订了,是真的拉胯。结果踩着 GPT-5.4、5.5 两代,Codex 像换了颗引擎:OpenAI 官方的数字是周活用户冲破 500 万,自 2 月桌面端上线以来翻了 6 倍。一代模型,硬是把一个被人看衰的产品从坑里拽了出来。
国内最典型的是智谱。一年前它的位置一度岌岌可危,眼看要掉队。然后 GLM-4.5、4.6、4.7 接连出,开年又是 GLM-5、5.1、5.2,三个月连发三个版本,形势整个翻了过来。港股上市半年,股价涨了大约八倍,市值冲到六千多亿港元。技术上的反转,直接写在了股价上。
MiniMax 是反方向的样本。它上市时的定价估值跟智谱本在一个量级,是首日股价翻倍,市值一度冲到一百三十多亿美元,三月那波甚至短暂超过了港股的百度。可风向调头也快:M2.7、M3 两代口碑没接住,市场的预期立刻打折,市值从高点回落了一大块。捧你和弃你,用的是同一种速度。
吵到最后,所有人的注意力收敛到两样东西上:Coding 和多模态。传统那套估值逻辑——看用户、看收入结构、看护城河——在这儿基本失灵了。大家其实只在问一个问题:你这一代模型,到底够不够强。
在我这行,这条链原来长得吓人
这种"技术几天就变成钱"的爽,恰恰是因为我太知道它过去有多不爽。
我做的是 infra,跟基础设施死死绑在一起的活。过去你在集群上、在机器上做出一个创新,把推理效率拉高 15%,想把这 15% 变成商业上的优势,难得让人想撂挑子。
难在哪?这 15% 没法直接定价。你总不能跟客户说,机器原来一百万,现在快了 15%,那卖你一百一十五万,他不是这么算账的。他会拉你进他的 TCO 模型里算总账,进他的风险结构里掰扯:你这 15% 怎么证明,会不会其实只有 5%,后续稳定性谁担保,供应链波动又算谁的。
于是一个底层优化,要走到客户真金白银买单那一步,中间隔着漫长的周期、复杂的供应链,还有一支庞大的商务队伍。你得养一整套组织,在商业的最末端慢慢磨,才能把技术磨成利润和规模。底层动一下,市场那头要很久才有回声。
更要命的是模型的命还短。你吭哧吭哧围着某一代模型优化了几个月,等你做完,它的当红期早过了。投入还没回本,标的先没了。所以推理 infra 这行,过去一直卡在一个尴尬的位置:所有人都信它未来重要,可当下就是看不到清晰的商业模式。
token 是现货,不是期货
那为什么现在突然就不一样了?
因为 AI coding 把 token 的需求点着了,整条链被一把抽干水分,短到有点不真实。
要害在 token 这东西的脾气:它按每天的产能现货结算。它不像传统商品,今天设计、明天生产、后天发货;它是此刻就在算,几秒钟之内结果就发出去了。就这一条,把所有规则都改写了。
我们前面研究三周换来的那几个点,一上线,从第二天起就开始结算:每天产能里多挤出来的那部分,直接记成额外的毛利和竞争力。不用等下个财年,也不用进谁的 TCO 模型、养一支队伍去证明它到底值多少钱。产能大了,单位 token 的真实成本降了,账面当天就变好看。
而且它复制起来几乎没有摩擦。这种优化不挑地域,同一类算力、同一个模型,客户还是原来那批,基本就是平移过去,铺开得飞快。
以天为单位,把一个底层技术的提升直接兑成商业回报,中间那套又长又重的体系被整个跳过去了。这大概是有史以来,技术到利润最短的一条链。
这是年轻人的时代
还有一件事,我越想越觉得有意思:在第一线做这些的,现在大多是二十岁出头的年轻人。
这个时代对他们格外友好,因为它的评判标准残忍地客观:效率涨了还是跌了,精度有没有变。东西摆在台面上,一测便知,几乎不给"资历"和"人情"留位置。你不需要哪位前辈点头,也不用会做人、会来事。一个行业的资深评委给不给你盖章,在这儿不重要。做出真东西,它就明明白白写在生产效率上。
一个二十多岁的人,能靠一次技术上的突破,创造出几个亿、甚至几亿美金的价值。快到立刻能看见结果,硬到能被人验证。整条链路里,不再需要塞那么多专门"判断你够不够格"的人。
写在最后
我们赶上的这个时代,是全球性的,节奏短得吓人,往后大概只会越来越残酷。
可它也实实在在地,把中间那些又长又重的环节,连同那些专门负责评判你的人,一起删掉了。剩下的,是技术创新,和做出技术的那个人。
中间的人越少,做事的人越值钱。
参考资料
- Google, "Introducing Gemini 3", 2025-11-18,https://blog.google/products/gemini/gemini-3/
- Fortune, "Sam Altman declares 'Code Red' as Gemini 3 surges", 2025-12-02,https://fortune.com/2025/12/02/sam-altman-declares-code-red-google-gemini-ceo-sundar-pichai/
- OpenAI, "Codex is becoming a productivity tool for everyone"(周活超 500 万、自 2 月增长 6 倍), 2026-06-02,https://openai.com/index/codex-for-knowledge-work/
- OpenAI, "Codex for (almost) everything"(300 万周活里程碑), 2026-04-16,https://openai.com/index/codex-for-almost-everything/
- OpenAI, "ChatGPT — Release Notes"(GPT-5.4 / 5.5 发布记录), 读取 2026-06-17,https://help.openai.com/en/articles/6825453-chatgpt-release-notes
- 证券时报,"'全球大模型第一股'智谱上市首日市值超 570 亿港元", 2026-01,https://www.stcn.com/article/detail/3580246.html
- 财华网,"【IPO 追踪】智谱(02513.HK)业绩高增引爆港股,股价涨 31% 创新高", 2026-04,https://www.finet.com.cn/news/69cc927d2308294c69bf7bec.html
- Z.ai,"Z.ai Releases GLM-4.7", PR Newswire, 2025-12-22,https://www.prnewswire.com/news-releases/zai-releases-glm-4-7-designed-for-real-world-development-environments-cementing-itself-as-chinas-openai-302649821.html
- MarkTechPost,"Z.ai Launches GLM-5.2 With a Usable 1M-Token Context", 2026-06-14,https://www.marktechpost.com/2026/06/14/z-ai-launches-glm-5-2-with-a-usable-1m-token-context-two-thinking-effort-levels-and-no-benchmarks-at-launch/
- Reuters,"MiniMax doubles in value in Hong Kong debut", 2026-01-09,https://www.reuters.com/world/asia-pacific/china-ai-firm-minimax-set-surge-hong-kong-debut-2026-01-09/
- 证券时报,"股价两天暴涨 51%,MiniMax 市值接连超越三家互联网大厂", 2026-03-11,https://www.stcn.com/article/detail/3670887.html
- MiniMax,"MiniMax-M2.5"(SWE-bench Verified 80.2), GitHub, 2026-02,https://github.com/MiniMax-AI/MiniMax-M2.5
