一匹小马与文生视频的私有化刚需

4 月 8 号，Artificial Analysis 视频竞技场排行榜上突然冒出一匹马。

一个叫 HappyHorse 的匿名模型，文生视频 Elo 1333，图生视频 1391，双双刷新纪录，直接把字节跳动的 SEEDANCE 2.0 从榜首挤了下来。SEEDANCE 2.0 是今年 3 月刚发布的，压着 Google Veo 3、OpenAI Sora 2 和 Runway Gen-4.5 一众选手排第一。结果一匹小马来了，把它掀了。

匿名打榜的传统艺能

这种匿名上榜的操作，在国内 AI 圈已经算是一种保留节目了。

今年 2 月，OpenRouter 上出了一个叫 Pony Alpha 的匿名语言模型，免费使用，20 万上下文窗口，上线第一天就跑了 400 亿 token。五天后智谱官宣：Pony Alpha 就是 GLM-5，745B MoE 架构。3 月份又来一个 Hunter Alpha，社区一度猜是 DeepSeek V4，结果小米站出来认领了——MiMo-V2-Pro，万亿参数。

匿名打榜的好处很直接：在没有品牌光环也没有品牌包袱的情况下，拿到真实的盲测数据。跑分可以做手脚，盲测做不了。

HappyHorse 也是这个路子。不过有一点很快就露馅了——支持的语言列表里，中文和粤语排在最前面。

我去搜 HappyHorse 的官网时发现一件很搞笑的事：happyhorse.io 和 happyhorse.com 都已经被抢注了，上面搭好了网站，直接开始收费。点进去一看，文生图、文生音乐、文生视频一条龙服务都有，阵仗搞得挺大。但仔细看用的根本不是 HappyHorse 模型，后面跑的是 Lightricks 的 LTX——一个以色列公司做的开源模型，原版只有 20 亿参数，之前测试过，跟打榜的那个 HappyHorse 完全是两个东西。

域名抢注的速度比模型训练快多了。但要是有人不了解情况，花了钱以为在用那个排行榜第一的 HappyHorse，就有点坑了。

不止域名。HuggingFace 上也冒出了好几个 HappyHorse 相关的仓库——happyhorse-lab、happyhorseai、HappyHorseOrg——看起来很像官方。但一查创建时间全是 4 月 9 号当天注册的，点进去要么只有一个 README，要么就是空仓库。README 里倒是写得很完整，"开源""第一名"之类的都有，就是没有权重文件。蹭热度不光抢域名了，连 HuggingFace 都给占上了。

谜底还没揭晓

到写这篇文章的时候，HappyHorse 的来源其实还没有定论。

Artificial Analysis 的模型页上仍然写着 "More details coming soon"，用的还是神秘模型的占位图。榜单认可了它的成绩，但没有给出团队背景。也没有找到正式的技术报告、官方 GitHub 仓库、公司公告或论文首页来把身份闭上环。

目前最有说服力的推断是跟 Sand.ai 有关。外面流传的 HappyHorse 技术描述——15B 参数、40 层单流 Transformer、文本视频音频联合建模、8-step DMD-2 蒸馏、多语言 lip-sync——跟 Sand.ai 和 SII-GAIR 联合发布的 daVinci-MagiHuman 高度重合。36Kr 的报道也指向了这个方向。但到目前为止，这仍然是推断，不是官宣。

所谓的"已开源"也要打个问号。Artificial Analysis 在榜单上会给开源权重模型标 Open Weights，HappyHorse 目前没有这个标记。当前领先的开源视频模型还是 LTX-2 Pro 那一档。网上那些声称 HappyHorse 已经 Apache 2.0 全量开源的文章，目前对不上可验证的权重发布。

差不多同一时间，阿里发布了万相 2.7，27B 参数的 MoE 架构（14B 激活），支持「思考模式」。但万相 2.7 目前也只放了 API，权重没有公开。以前的万相系列一向发布即开源，这次不知道为什么没有。

文生视频的私有化刚需

HappyHorse 的身份迟早会揭晓。但我更感兴趣的其实不是谁做的，而是文生视频这种模型的私有化逻辑。

每一种模型都会带火一种硬件。DeepSeek 出来，H20 的订单直接炸了——光 2025 年 Q1，中国公司就下了超过 160 亿美元。开源语言模型火了以后，DeepSeek V3 跑在 8 台 M4 Pro Mac Mini 组成的集群上，Mac Mini 跟着卖断货。

文生视频会带火什么？我觉得答案是消费级 GPU 和小型推理盒子。而且文生视频对私有化部署的刚需比语言模型强得多。

延迟不敏感，成本敏感

文生视频天然是一个「等得起」的场景。在云上生成一段视频，怎么也得等几分钟。在本地跑慢一点，十几分钟甚至半小时，其实没有本质区别——你不会盯着进度条看，该干嘛干嘛。

延迟不敏感，那就是成本敏感。视频上云除了算力，还有一个大头容易被忽略：带宽。视频动辄几十上百 MB，传来传去的网络费用很吓人。最近算过一笔账，服务器本身没那么贵，但网络带宽的账单看了一眼就不想再看。放本地，这笔钱省了。

延迟不敏感还带来另一个推论：你不需要最顶级的算力。语言模型推理追求低延迟，非得上最好的卡。文生视频不一样，慢一点没关系，那些「不够快但足够便宜」的算力——游戏显卡、上一代计算卡——就变成了高性价比的选择。

法规和内容审核的两难

这一条很多人没怎么想过。

文字内容的审核好办，大部分场景不太会碰到法律问题。图像和视频就不一样了，IP 侵权、肖像权、敏感内容，法规还没完全落地，云服务商夹在中间很难做。

做云服务的两难是：不拦，出事要担责；拦，技术上做不到精准过滤，误伤一大片。于是就变成宁可多杀不可少放——不让上传人像、不让涉及特定 IP、一检测到可能敏感就卡死。用起来就是各种受限。

本地就没有这些问题。模型在自己机器上跑，不经过第三方审核。Stable Diffusion 时代大量文生图工作流都在本地跑，不是因为本地更快，是因为没有审核限制。文生视频会重复这个模式。

变现路径更短

语言模型的价值一直很难量化。更好的模型写了更好的一段话，带来多少收益？说不清。从 32B 模型升级到几千亿参数的私有化部署，多花十倍成本买 H20，能多赚十倍吗？谁也说不好。Coding 场景出来以后好了一些，但之前大家确实算不过来这笔账。

文生视频完全不一样。好视频就是好流量，流量就是钱。花几百块生成一段质量过得去的视频，内容有意思的话，带来的流量可能值几千甚至几万。这笔账谁都算得过来。

SEEDANCE 2.0 就是个例子。创作者愿意花钱排队等资源，因为用它出的视频确实能跑出更好的数据。模型好坏的差距，发几条视频就看出来了。

硬件的连锁反应

HappyHorse 到底会不会开源、什么时候开源，现在还不好说。但可以先算一笔账。

如果按传闻的 15B 参数来估，FP16 推理大概需要 30GB 显存，量化到 INT8 只要 15GB 左右。一张 RTX 4090 或 5090 就能装下。DGX Spark 这种 128GB 统一内存的小盒子就更从容了，跑推理绰绰有余。

假如它真的以这个体量开源出来，RTX 4090/5090 大概率更难买。DGX Spark 的价格已经从 2025 年最初公布的 3000 美元涨到了 4699 美元，涨了超过 50%，供给本来就紧张。再加一个吃显存的大户进来，情况只会更夸张。

之前的剧本演过好几遍了。DeepSeek 引爆 H20，开源 LLM 拉动 Mac Mini。文生视频走到今天这个质量，就差一个足够好的开源模型落地。HappyHorse 有没有这个机会还不好说，但这件事迟早会发生。

悬而未决

回到 HappyHorse 本身。

会不会正式开源？现在看不出来。榜单成绩摆在那了，但权重和代码都没有落地。要是最后只做 API 服务，那对硬件市场的冲击就有限，又一个强大的闭源模型罢了。

体量到底多大？营销页上说 15B，如果是真的，一张消费级显卡就能跑。但要是实际上更大，需要多卡甚至集群，那本地部署就不太现实，又回到云厂商那套了。

这两个问题的答案不同，后面的故事走向完全不一样。但不管 HappyHorse 怎么样，文生视频往本地搬的趋势不会变。ComfyUI、WebUI 这些工具在等一个足够好的开源模型，量化社区也在等。等到了，消费级硬件那边就该热闹了。