今天 AI 行业跟过年一样。
上午 OpenAI 刚推 GPT-5.5,下午 DeepSeek V4 就上线了。加上前两天 DeepMind 的 Vision Banana,还有蔡浩宇家 Anuttacon 那篇数字人论文。这一周挤进来的新东西,比过去一整个季度都多。挑着聊。
DeepSeek V4
V4 发布前我参与了一些内测。之前要保密不能讲,现在放开了。
先交代下尺寸。V4 发了两个版本:V4-Pro 总参 1.6T、激活 49B;V4-Flash 284B / 13B。都在 32T+ tokens 上预训练,1M 上下文做标配,MIT 协议开源,支持 non-think / think high / think max 三档推理档位。API 价格上,V4-Pro 每百万 tokens 输入 1.74 美元、输出 3.48 美元;V4-Flash 再便宜一个数量级,0.14 / 0.28 美元。
能力这边,官方自己承认,V4 大概在 Opus 4.6 这一档,甚至略弱。不到最顶尖。
这跟上一次 R1 对 O3 的格局是一样的。接近,不在最前沿。
那 DeepSeek 的意义在哪?我一直觉得,它不是靠模型碾压同行的公司,它是靠 Infra 领先同行的公司。而且 Infra 不是跟着模型走,是走在模型前面。
V4 这一版 Infra,对市面上所有做推理的公司都是灾难。这个词不夸张。
原生 FP4。V4 是 FP8 + FP4 混精的模型,MoE 专家用 FP4,其余参数 FP8。目前大多数芯片、大多数推理栈对 FP4 的支持要么没有要么很弱。
算子切得很碎。我跑 V4 推理的时候就发现,它在算子层做了极多个性化优化,市面主流开源引擎基本跑不出官方性能。你想追上它的性价比,等于要从底层编译一条条打磨。
单机都吃力。上一代单机至少能跑,这一代单机都跑不动,集群就更别提。不用官方那一套去跑,想做到它那个价格基本没戏。
这让我想起 V3/R1 那阵 DeepSeek 披露过 545% 的理论毛利率。意思是严格按它的架构跑下来,毛利可以极高;同一时间所有复刻的推理服务都在赔钱。V4 是这个故事的更激进版本。
另外聊个插曲。官方负责 Infra 的同事跟我们聊过,很认真地说:慎重点,技术变化太快,上一版的某些架构可能就是个过渡形态,下一代直接不用了。你前面投入重金做 Infra,下一代一出来就打水漂。
这背后有个本质分歧。大多数模型公司先把模型做好,Infra 放后面;DeepSeek 是 Infra 先行,靠底层创新反推模型的经济学。两种都能活。但真要大规模 serve C 端,没把 Infra 想清楚就一定翻车。DeepSeek 第一次爆红那会自己也栽过,网页挂了、API 掉线。那还是它 Infra 已经相对到位的情况下。
模型本身
体感上看:
- 中文文本能力仍然是它的强项。做中文写作、做报告这类内容整理的任务,值。
- 工具调用体感不错,有点 Claude 的感觉。
- 没到最顶尖那一档。GPT-5.5、Opus 4.7 那个水平它追不上。
- 目前没有 coding plan。应该暂时也不会出。挺遗憾。
100 万上下文做成默认
这可能是 V4 最值得记一笔的事。100 万 token 上下文,所有线上服务直接默认,不分段涨价。
100 万 token 什么概念?差不多 200 万字,一本连载一两年的网络小说能整本装进去。
以前大家都想做,但真做出来的要么单独定价要么开一阵就关。Anthropic 百万档去年开了一阵又收回去,最近才重新放出来;OpenAI 到现在 API 百万档都没正式开。不是能力问题,是 Infra 顶不住。
V4 能做成标配不加价,是因为在注意力上动了大手术。它引入了 CSA(Compressed Sparse Attention)和 HCA(Heavily Compressed Attention)两种结构交替使用:CSA 先把 KV 沿序列方向压缩 4 倍,再做稀疏注意力挑最相关的 token(V4-Pro 取 top-1024、V4-Flash 取 top-512),配一个 128 token 的滑动窗保证局部不丢;HCA 压得更狠(压缩率 128),但在压缩后的表示上做密集注意力,相当于给部分层留一个低分辨率的"全局摘要"。两种层在网络里交替穿插,一些做精确 look-up,一些做模糊全局。另外还叠了一层 Manifold-Constrained Hyper-Connections(mHC)来稳住跨层信号传播。
官方给的效率数据是:1M 上下文下,V4-Pro 单 token 推理 FLOPs 只需要 V3.2 的 27%,KV 缓存 10%。百万标配不加价,底层靠的就是这。
23 年 Kimi 最早就在提这个方向:百万上下文能覆盖大多数场景。三年过去,这件事终于变成基础设施级别的默认能力。
Day-0 适配国产芯片
V4 这次做到了对华为昇腾等国产芯片的 day-0 深度适配。这事我觉得有格局。
一直依赖海外芯片做训练推理,不是技术问题,是风险问题。V4 能在 day 0 就把国产适配想清楚,比模型本身更有意义。
这一周其他几个
Vision Banana:生成式模型其实"懂"图像
DeepMind 这两天发了个叫 Vision Banana 的东西。做法是拿 Nano Banana Pro 这个文生图模型做一轮指令微调,让它去做分割、深度估计、法向量估计这些传统视觉任务。
结果打平甚至打过 Segment Anything、Depth Anything 这些专用模型,生图能力不掉。
这事挺有意思。文生图模型内在其实已经具备了对图像的理解,只是以前没人知道怎么把这份理解"问出来"。现在图像理解和生成被统一在同一个接口下:所有任务都用图生图的方式解。
按这个思路走,生成式模型天然通向"世界模型"。2D、3D、视频、物理这些维度,可能都会收进同一个模型里。
蔡浩宇家的 LPM 1.0:数字人终于会"听"了
4 月 10 日,米哈游前创始人蔡浩宇的新公司 Anuttacon 在 arXiv 放了一篇论文,LPM 1.0,170 亿参数扩散 Transformer,做的是视频角色的"表演生成"。
数字人这件事说烂了。但这篇论文定义了两个以前没人认真做的问题:持续身份一致性、倾听时的互动。
身份一致性不只是外观稳定。是说人物在不同场景下的反应要符合同一个"人格",你不会突然觉得"这不是刚才那个人"。
以前的数字人都是输出导向的:让它说话、让它动,现在做得也不错。真正难的是倾听。你跟它说话的时候,它要给你表情反馈、微动作、呼吸节奏,让你感觉对面是个活人。现实里跟人说话,对方不是面无表情等你说完再回应,他全程都在反馈。这份反馈量巨大,以前几乎没人做。
论文发了,模型不开源。因为越真就越像人,诈骗风险太高。这个判断我觉得对。
Opus 4.7 的锅:Infra 翻车
Anthropic 这一两周被骂得挺惨。4 月 23 日官方出了复盘,三件事叠起来:
- 3 月 4 日把默认 reasoning effort 从 high 降到 medium,为了改善 UI 延迟,代价是 Sonnet 4.6 和 Opus 4.6 智能度明显下降。
- 3 月 26 日上线一个清空 idle session thinking 的功能,bug 导致每轮都清空,模型开始健忘和重复。
- 4 月 16 日加了个系统提示词限制回复字数,结果 Opus 4.7 编码质量掉了 3%。
三件都是 Infra 层的失误。一个模型服务好不好用,Infra 占的比重在变得越来越大。
一家没发顶尖模型,却还能占热搜
DeepSeek 这么久没发新模型了。中间几代基本没什么声浪。今天一发,占掉几个热搜。
我觉得这是格局实力。它做了几件当下很有代表性的事:百万上下文做成标配、FP4 推到生产、国产芯片 day-0 适配跑通。都是 Infra 层的硬活。
也要承认现在这个格局下想一枝独秀很难。Kimi K2.6、GLM 5.1、MiniMax 新模型一堆,开源阵营水位整体抬起来了,跟 V3/R1 那会独占开源高地的时代不一样了。
再说一次那个结论
今天上午有朋友来找我。他们公司想转型,想"买个 AI 产品"来助力团队变革。金融行业,人不多。
我跟他说的原话是:别着急谈转型,先让公司每一个人成为 coding agent 的重度用户,再谈组织变革。
然后把自己的电脑桌面投给他看,看我每天怎么用 Claude Code,看 Agent 在桌面上同时开多少条线。他看完第一反应就是立刻去下一个 coding plan。
这个反应是对的。这个时代最超值的一笔投资,就是买一个 coding plan 然后天天用。不是"用过几次 ChatGPT"的那种用,是真的让 Agent 进到你每天的工作流里。没这个基础,组织层面的变革都是空中楼阁。
2026 年一定会被记一笔。不是因为哪一个模型,是因为密度;一天能挤进来三个模型一个论文。你能感觉到这个节奏,就已经在场了。
参考资料
- DeepSeek V4 发布公告(ofox.ai)
- DeepSeek-V4-Pro on Hugging Face
- DeepSeek-V4-Flash on Hugging Face
- DeepSeek API Pricing(官方)
- Simon Willison: DeepSeek V4—almost on the frontier
- DeepSeek V4 携手华为昇腾(凤凰网)
- DeepSeek 理论毛利率 545% 披露
- Introducing GPT-5.5 — OpenAI
- Vision Banana — Google DeepMind
- Anuttacon LPM 1.0 论文报道(新浪财经)
- Anthropic: An update on recent Claude Code quality reports
- Moonshot 发布 Kimi K2.6
- 智谱发布 GLM-5.1(Build Fast With AI 评测)
