DeepSeek V4 这一天：比的是 Infra，不是模型

今天 AI 行业跟过年一样。

上午 OpenAI 刚推 GPT-5.5，下午 DeepSeek V4 就上线了。加上前两天 DeepMind 的 Vision Banana，还有蔡浩宇家 Anuttacon 那篇数字人论文。这一周挤进来的新东西，比过去一整个季度都多。挑着聊。

DeepSeek V4

V4 发布前我参与了一些内测。之前要保密不能讲，现在放开了。

先交代下尺寸。V4 发了两个版本：V4-Pro 总参 1.6T、激活 49B；V4-Flash 284B / 13B。都在 32T+ tokens 上预训练，1M 上下文做标配，MIT 协议开源，支持 non-think / think high / think max 三档推理档位。API 价格上，V4-Pro 每百万 tokens 输入 1.74 美元、输出 3.48 美元；V4-Flash 再便宜一个数量级，0.14 / 0.28 美元。

能力这边，官方自己承认，V4 大概在 Opus 4.6 这一档，甚至略弱。不到最顶尖。

这跟上一次 R1 对 O3 的格局是一样的。接近，不在最前沿。

那 DeepSeek 的意义在哪？我一直觉得，它不是靠模型碾压同行的公司，它是靠 Infra 领先同行的公司。而且 Infra 不是跟着模型走，是走在模型前面。

V4 这一版 Infra，对市面上所有做推理的公司都是灾难。这个词不夸张。

原生 FP4。V4 是 FP8 + FP4 混精的模型，MoE 专家用 FP4，其余参数 FP8。目前大多数芯片、大多数推理栈对 FP4 的支持要么没有要么很弱。

算子切得很碎。我跑 V4 推理的时候就发现，它在算子层做了极多个性化优化，市面主流开源引擎基本跑不出官方性能。你想追上它的性价比，等于要从底层编译一条条打磨。

单机都吃力。上一代单机至少能跑，这一代单机都跑不动，集群就更别提。不用官方那一套去跑，想做到它那个价格基本没戏。

这让我想起 V3/R1 那阵 DeepSeek 披露过 545% 的理论毛利率。意思是严格按它的架构跑下来，毛利可以极高；同一时间所有复刻的推理服务都在赔钱。V4 是这个故事的更激进版本。

另外聊个插曲。官方负责 Infra 的同事跟我们聊过，很认真地说：慎重点，技术变化太快，上一版的某些架构可能就是个过渡形态，下一代直接不用了。你前面投入重金做 Infra，下一代一出来就打水漂。

这背后有个本质分歧。大多数模型公司先把模型做好，Infra 放后面；DeepSeek 是 Infra 先行，靠底层创新反推模型的经济学。两种都能活。但真要大规模 serve C 端，没把 Infra 想清楚就一定翻车。DeepSeek 第一次爆红那会自己也栽过，网页挂了、API 掉线。那还是它 Infra 已经相对到位的情况下。

模型本身

体感上看：

中文文本能力仍然是它的强项。做中文写作、做报告这类内容整理的任务，值。
工具调用体感不错，有点 Claude 的感觉。
没到最顶尖那一档。GPT-5.5、Opus 4.7 那个水平它追不上。
目前没有 coding plan。应该暂时也不会出。挺遗憾。

100 万上下文做成默认

这可能是 V4 最值得记一笔的事。100 万 token 上下文，所有线上服务直接默认，不分段涨价。

100 万 token 什么概念？差不多 200 万字，一本连载一两年的网络小说能整本装进去。

以前大家都想做，但真做出来的要么单独定价要么开一阵就关。Anthropic 百万档去年开了一阵又收回去，最近才重新放出来；OpenAI 到现在 API 百万档都没正式开。不是能力问题，是 Infra 顶不住。

V4 能做成标配不加价，是因为在注意力上动了大手术。它引入了 CSA（Compressed Sparse Attention）和 HCA（Heavily Compressed Attention）两种结构交替使用：CSA 先把 KV 沿序列方向压缩 4 倍，再做稀疏注意力挑最相关的 token（V4-Pro 取 top-1024、V4-Flash 取 top-512），配一个 128 token 的滑动窗保证局部不丢；HCA 压得更狠（压缩率 128），但在压缩后的表示上做密集注意力，相当于给部分层留一个低分辨率的"全局摘要"。两种层在网络里交替穿插，一些做精确 look-up，一些做模糊全局。另外还叠了一层 Manifold-Constrained Hyper-Connections（mHC）来稳住跨层信号传播。

官方给的效率数据是：1M 上下文下，V4-Pro 单 token 推理 FLOPs 只需要 V3.2 的 27%，KV 缓存 10%。百万标配不加价，底层靠的就是这。

23 年 Kimi 最早就在提这个方向：百万上下文能覆盖大多数场景。三年过去，这件事终于变成基础设施级别的默认能力。

Day-0 适配国产芯片

V4 这次做到了对华为昇腾等国产芯片的 day-0 深度适配。这事我觉得有格局。

一直依赖海外芯片做训练推理，不是技术问题，是风险问题。V4 能在 day 0 就把国产适配想清楚，比模型本身更有意义。

这一周其他几个

Vision Banana：生成式模型其实"懂"图像

DeepMind 这两天发了个叫 Vision Banana 的东西。做法是拿 Nano Banana Pro 这个文生图模型做一轮指令微调，让它去做分割、深度估计、法向量估计这些传统视觉任务。

结果打平甚至打过 Segment Anything、Depth Anything 这些专用模型，生图能力不掉。

这事挺有意思。文生图模型内在其实已经具备了对图像的理解，只是以前没人知道怎么把这份理解"问出来"。现在图像理解和生成被统一在同一个接口下：所有任务都用图生图的方式解。

按这个思路走，生成式模型天然通向"世界模型"。2D、3D、视频、物理这些维度，可能都会收进同一个模型里。

蔡浩宇家的 LPM 1.0：数字人终于会"听"了

4 月 10 日，米哈游前创始人蔡浩宇的新公司 Anuttacon 在 arXiv 放了一篇论文，LPM 1.0，170 亿参数扩散 Transformer，做的是视频角色的"表演生成"。

数字人这件事说烂了。但这篇论文定义了两个以前没人认真做的问题：持续身份一致性、倾听时的互动。

身份一致性不只是外观稳定。是说人物在不同场景下的反应要符合同一个"人格"，你不会突然觉得"这不是刚才那个人"。

以前的数字人都是输出导向的：让它说话、让它动，现在做得也不错。真正难的是倾听。你跟它说话的时候，它要给你表情反馈、微动作、呼吸节奏，让你感觉对面是个活人。现实里跟人说话，对方不是面无表情等你说完再回应，他全程都在反馈。这份反馈量巨大，以前几乎没人做。

论文发了，模型不开源。因为越真就越像人，诈骗风险太高。这个判断我觉得对。

Opus 4.7 的锅：Infra 翻车

Anthropic 这一两周被骂得挺惨。4 月 23 日官方出了复盘，三件事叠起来：

3 月 4 日把默认 reasoning effort 从 high 降到 medium，为了改善 UI 延迟，代价是 Sonnet 4.6 和 Opus 4.6 智能度明显下降。
3 月 26 日上线一个清空 idle session thinking 的功能，bug 导致每轮都清空，模型开始健忘和重复。
4 月 16 日加了个系统提示词限制回复字数，结果 Opus 4.7 编码质量掉了 3%。

三件都是 Infra 层的失误。一个模型服务好不好用，Infra 占的比重在变得越来越大。

一家没发顶尖模型，却还能占热搜

DeepSeek 这么久没发新模型了。中间几代基本没什么声浪。今天一发，占掉几个热搜。

我觉得这是格局实力。它做了几件当下很有代表性的事：百万上下文做成标配、FP4 推到生产、国产芯片 day-0 适配跑通。都是 Infra 层的硬活。

也要承认现在这个格局下想一枝独秀很难。Kimi K2.6、GLM 5.1、MiniMax 新模型一堆，开源阵营水位整体抬起来了，跟 V3/R1 那会独占开源高地的时代不一样了。

再说一次那个结论

今天上午有朋友来找我。他们公司想转型，想"买个 AI 产品"来助力团队变革。金融行业，人不多。

我跟他说的原话是：别着急谈转型，先让公司每一个人成为 coding agent 的重度用户，再谈组织变革。

然后把自己的电脑桌面投给他看，看我每天怎么用 Claude Code，看 Agent 在桌面上同时开多少条线。他看完第一反应就是立刻去下一个 coding plan。

这个反应是对的。这个时代最超值的一笔投资，就是买一个 coding plan 然后天天用。不是"用过几次 ChatGPT"的那种用，是真的让 Agent 进到你每天的工作流里。没这个基础，组织层面的变革都是空中楼阁。

2026 年一定会被记一笔。不是因为哪一个模型，是因为密度；一天能挤进来三个模型一个论文。你能感觉到这个节奏，就已经在场了。