4 月 8 号,Artificial Analysis 视频竞技场排行榜上突然冒出一匹马。
一个叫 HappyHorse 的匿名模型,文生视频 Elo 1333,图生视频 1391,双双刷新纪录,直接把字节跳动的 SEEDANCE 2.0 从榜首挤了下来。SEEDANCE 2.0 是今年 3 月刚发布的,压着 Google Veo 3、OpenAI Sora 2 和 Runway Gen-4.5 一众选手排第一。结果一匹小马来了,把它掀了。
匿名打榜的传统艺能
这种匿名上榜的操作,在国内 AI 圈已经算是一种保留节目了。
今年 2 月,OpenRouter 上出了一个叫 Pony Alpha 的匿名语言模型,免费使用,20 万上下文窗口,上线第一天就跑了 400 亿 token。五天后智谱官宣:Pony Alpha 就是 GLM-5,745B MoE 架构。3 月份又来一个 Hunter Alpha,社区一度猜是 DeepSeek V4,结果小米站出来认领了——MiMo-V2-Pro,万亿参数。
匿名打榜的好处很直接:在没有品牌光环也没有品牌包袱的情况下,拿到真实的盲测数据。跑分可以做手脚,盲测做不了。
HappyHorse 也是这个路子。不过有一点很快就露馅了——支持的语言列表里,中文和粤语排在最前面。
域名大战
既然模型火了,域名自然要被盯上。
我去搜 HappyHorse 的官网时发现一件很搞笑的事:happyhorse.io 和 happyhorse.com 都已经被抢注了,上面搭好了网站,直接开始收费。点进去一看,文生图、文生音乐、文生视频一条龙服务都有,阵仗搞得挺大。但仔细看用的根本不是 HappyHorse 模型,后面跑的是 Lightricks 的 LTX——一个以色列公司做的开源模型,原版只有 20 亿参数,之前测试过,跟打榜的那个 HappyHorse 完全是两个东西。
域名抢注的速度比模型训练快多了。但要是有人不了解情况,花了钱以为在用那个排行榜第一的 HappyHorse,就有点坑了。
不止域名。HuggingFace 上也冒出了好几个 HappyHorse 相关的仓库——happyhorse-lab、happyhorseai、HappyHorseOrg——看起来很像官方。但一查创建时间全是 4 月 9 号当天注册的,点进去要么只有一个 README,要么就是空仓库。README 里倒是写得很完整,"开源""第一名"之类的都有,就是没有权重文件。蹭热度不光抢域名了,连 HuggingFace 都给占上了。
谜底还没揭晓
到写这篇文章的时候,HappyHorse 的来源其实还没有定论。
Artificial Analysis 的模型页上仍然写着 "More details coming soon",用的还是神秘模型的占位图。榜单认可了它的成绩,但没有给出团队背景。也没有找到正式的技术报告、官方 GitHub 仓库、公司公告或论文首页来把身份闭上环。
目前最有说服力的推断是跟 Sand.ai 有关。外面流传的 HappyHorse 技术描述——15B 参数、40 层单流 Transformer、文本视频音频联合建模、8-step DMD-2 蒸馏、多语言 lip-sync——跟 Sand.ai 和 SII-GAIR 联合发布的 daVinci-MagiHuman 高度重合。36Kr 的报道也指向了这个方向。但到目前为止,这仍然是推断,不是官宣。
所谓的"已开源"也要打个问号。Artificial Analysis 在榜单上会给开源权重模型标 Open Weights,HappyHorse 目前没有这个标记。当前领先的开源视频模型还是 LTX-2 Pro 那一档。网上那些声称 HappyHorse 已经 Apache 2.0 全量开源的文章,目前对不上可验证的权重发布。
差不多同一时间,阿里发布了万相 2.7,27B 参数的 MoE 架构(14B 激活),支持「思考模式」。但万相 2.7 目前也只放了 API,权重没有公开。以前的万相系列一向发布即开源,这次不知道为什么没有。
文生视频的私有化刚需
HappyHorse 的身份迟早会揭晓。但我更感兴趣的其实不是谁做的,而是文生视频这种模型的私有化逻辑。
每一种模型都会带火一种硬件。DeepSeek 出来,H20 的订单直接炸了——光 2025 年 Q1,中国公司就下了超过 160 亿美元。开源语言模型火了以后,DeepSeek V3 跑在 8 台 M4 Pro Mac Mini 组成的集群上,Mac Mini 跟着卖断货。
文生视频会带火什么?我觉得答案是消费级 GPU 和小型推理盒子。而且文生视频对私有化部署的刚需比语言模型强得多。
延迟不敏感,成本敏感
文生视频天然是一个「等得起」的场景。在云上生成一段视频,怎么也得等几分钟。在本地跑慢一点,十几分钟甚至半小时,其实没有本质区别——你不会盯着进度条看,该干嘛干嘛。
延迟不敏感,那就是成本敏感。视频上云除了算力,还有一个大头容易被忽略:带宽。视频动辄几十上百 MB,传来传去的网络费用很吓人。最近算过一笔账,服务器本身没那么贵,但网络带宽的账单看了一眼就不想再看。放本地,这笔钱省了。
延迟不敏感还带来另一个推论:你不需要最顶级的算力。语言模型推理追求低延迟,非得上最好的卡。文生视频不一样,慢一点没关系,那些「不够快但足够便宜」的算力——游戏显卡、上一代计算卡——就变成了高性价比的选择。
法规和内容审核的两难
这一条很多人没怎么想过。
文字内容的审核好办,大部分场景不太会碰到法律问题。图像和视频就不一样了,IP 侵权、肖像权、敏感内容,法规还没完全落地,云服务商夹在中间很难做。
做云服务的两难是:不拦,出事要担责;拦,技术上做不到精准过滤,误伤一大片。于是就变成宁可多杀不可少放——不让上传人像、不让涉及特定 IP、一检测到可能敏感就卡死。用起来就是各种受限。
本地就没有这些问题。模型在自己机器上跑,不经过第三方审核。Stable Diffusion 时代大量文生图工作流都在本地跑,不是因为本地更快,是因为没有审核限制。文生视频会重复这个模式。
变现路径更短
语言模型的价值一直很难量化。更好的模型写了更好的一段话,带来多少收益?说不清。从 32B 模型升级到几千亿参数的私有化部署,多花十倍成本买 H20,能多赚十倍吗?谁也说不好。Coding 场景出来以后好了一些,但之前大家确实算不过来这笔账。
文生视频完全不一样。好视频就是好流量,流量就是钱。花几百块生成一段质量过得去的视频,内容有意思的话,带来的流量可能值几千甚至几万。这笔账谁都算得过来。
SEEDANCE 2.0 就是个例子。创作者愿意花钱排队等资源,因为用它出的视频确实能跑出更好的数据。模型好坏的差距,发几条视频就看出来了。
硬件的连锁反应
HappyHorse 到底会不会开源、什么时候开源,现在还不好说。但可以先算一笔账。
如果按传闻的 15B 参数来估,FP16 推理大概需要 30GB 显存,量化到 INT8 只要 15GB 左右。一张 RTX 4090 或 5090 就能装下。DGX Spark 这种 128GB 统一内存的小盒子就更从容了,跑推理绰绰有余。
假如它真的以这个体量开源出来,RTX 4090/5090 大概率更难买。DGX Spark 的价格已经从 2025 年最初公布的 3000 美元涨到了 4699 美元,涨了超过 50%,供给本来就紧张。再加一个吃显存的大户进来,情况只会更夸张。
之前的剧本演过好几遍了。DeepSeek 引爆 H20,开源 LLM 拉动 Mac Mini。文生视频走到今天这个质量,就差一个足够好的开源模型落地。HappyHorse 有没有这个机会还不好说,但这件事迟早会发生。
悬而未决
回到 HappyHorse 本身。
会不会正式开源?现在看不出来。榜单成绩摆在那了,但权重和代码都没有落地。要是最后只做 API 服务,那对硬件市场的冲击就有限,又一个强大的闭源模型罢了。
体量到底多大?营销页上说 15B,如果是真的,一张消费级显卡就能跑。但要是实际上更大,需要多卡甚至集群,那本地部署就不太现实,又回到云厂商那套了。
这两个问题的答案不同,后面的故事走向完全不一样。但不管 HappyHorse 怎么样,文生视频往本地搬的趋势不会变。ComfyUI、WebUI 这些工具在等一个足够好的开源模型,量化社区也在等。等到了,消费级硬件那边就该热闹了。
