AIInfraKV cache推理思考Token 业务的暗线:决定成本的不是吞吐,是 KV cache 命中大家算 token 成本,习惯盯 TTFT、TPOT、吞吐速率。真正让账单差出 10 倍的是 KV cache 有没有命中。模型、服务端、用户三层都得对得上。2026年5月28日5 分钟阅读
AITokenInfra算力思考Token 不是一种东西GPT-5.5、Opus 4.7 一档需求几乎无限,中等模型断档,中低端算力大量闲置。Token 经济听起来像卖电力,其实更像加油站:98 号汽油断货了,柴油桶装满了但需要自助,95 号装满了但空置。2026年5月26日7 分钟阅读
AI推理优化Infra思考模型快 5 倍,就不再是同一个模型Gemini 3.5 Flash 发布会几乎不讲智能,智谱 GLM-5.1 高速版冲到 400 token/s。背后是同一个故事——推理速度跨过 5 倍那条线之后,模型解锁的就是另一类产品了。2026年5月22日6 分钟阅读
AIAI AgentInfraCPU思考Agent 时代最贵的浪费:GPU 在等 CPU我做了七百轮 AI Infra 实验,三十五个小时全被环境启动吃掉。一开始还以为是 GPT-5.5 fast 模式不够快,后来发现根本不是模型在思考,是模型在等 CPU。Intel 已经把服务器 CPU:GPU 配比从 1:8 收紧到 1:1。2026年5月7日5 分钟阅读
AIDeepSeekInfra模型思考DeepSeek V4 这一天:比的是 Infra,不是模型V4 能力卡在 Opus 4.6 一档,但把 FP4 推到生产、百万上下文做成默认、国产芯片 day-0 适配,对所有做推理 Infra 的人都是灾难。加上 GPT-5.5、Vision Banana、LPM 1.0,这一周挤进来的新东西比过去一整个季度都多。2026年4月24日6 分钟阅读