Demo 一小时，产线三小时

网上经常有人讲一句话：AI 时代最重要的是可靠。

第一次看到这句的时候我觉得是车轱辘话。每个时代都被人挑一个词出来盖章，"聪明"和"执行力"之前都被讲过一轮，"可靠"听起来跟 AI 时代特别贴吗？也不见得。

最近自己手头几个项目，倒是把这句话讲明白了。

一天三个字，一百天上千条素材

之前给儿子做了个汪汪队认字游戏。每天三个字，一百天三百字。这个数字看着小。

问题是这一百天里每一天都是一个独立的小关卡。每天大概要六七张图，几十条音频。语音是克隆汪汪队里某个角色的声音生成的，每条对应一句台词。一百天合起来，几张图一算，几千条素材跑不掉。

第一天的 demo 跑通了。我跟儿子坐在那玩了二十分钟，挺开心。问题就出在这。

我以为剩下的事情就是把 demo 再跑九十九次。后来发现这件事跟 demo 是两个东西。

我从全量第一批跑出来的二十条音频里随机抽了两条听。两条都不行。一条吞了两个字，一条情绪完全跟台词对不上。剩下的十八条还敢用吗？再抽，还是有问题。那一百天合起来一千多条素材，到底有多少能用？心里没底。

这种没底的感觉是关键。它不是小问题，是会让你停手。

多出来的那一道叫质检

demo 之所以好做，是人在里面盯着。生成一条听一遍，不行重来，挑一个最好的留下。整个过程是手工的，人在中间做了一道隐形的质检。

想全自动，就得把"人在中间盯着"换成"模型在中间盯着"。这就是质检。

听起来简单。做起来打开了一个新世界。

一段音频，三四个模型同时打分

我开始翻一些行业里的非主流模型。常规听说的是 ASR 和 TTS——理解声音用 ASR，生成声音用 TTS。但是给 TTS 打质检分这件事，原来有专门一拨模型在做。

DNSMOS 是微软出的，最早给降噪算法打分用。它不需要原始干净声音作为参考，单凭一段音频就能判断里面有多少杂音、整体可不可听。后来发现它对 TTS 生成的人工痕迹也敏感。

NISQA 是柏林工大 Gabriel Mittag 那边做的，里面有一个 NISQA-TTS 的权重，直接评 TTS 自然度。它给的不是单一分数，是噪声、染色、不连续、响度几个维度的分。

UTMOS 是东京大学 SaruLab 团队的，VoiceMOS Challenge 2022 的冠军，现在是 TTS 圈打分的一个事实基线。我把它放在最外面做兜底。

最后还有一道反向 ASR：把生成的音频用 Whisper 再识别一遍文字，跟原始 script 对一遍，差太多就打回。这一道最朴素，但也最稳。

四个分加起来，超过阈值算合格，不合格触发重新生成。这套搭起来跑了一天，效果确实比单跑 TTS 强一截。

一倍时间变三倍，不是夸张

但成本也起飞了。

加质检之前我以为最多多一半时间。挑出错的重生成嘛，就算重生成的全错也就再跑一遍，最多 1.5 倍。

实际上 1 小时变成了 3 小时。

原因是模型在某一句话上就是过不去。同一段台词换不同种子生成，七遍、八遍、九遍都过不了质检的阈值。有时候得回退到换 prompt、换语速、换情绪标签才能挤过去。每一次重生成都是一次完整的模型调用，每次都要烧 token。

如果这套跑在云上，按时长计费，几分钟烧上百块不夸张。我后来粗算了一下，一个本来打算云端跑完的语音生成任务，按重试率折算，账单大概是 demo 那次的 7 到 10 倍。

这是我之前没算明白的一道账：从 demo 到产线，烧的钱按数量级走，不是按百分比。

同样的事，在另一个项目上又碰到一次

最近还在玩另一个项目，叫 MiroFish。

这是个挺有意思的开源项目，作者是中国的本科生郭航江，2026 年 3 月登过 GitHub Trending 全球第一，背后投资是盛大集团的陈天桥。它做的事情是生成一大堆带个性、带记忆、带社交关系的 agent，然后在两个模拟平台上让它们互相讨论、辩论、结盟、改观点，最后用一个 ReportAgent 把整个演化过程的结论总结出来，用来预测某个事件的走向。

我跑的配置不算大。一个事件大概 54 个 agent，时间线 20 轮。每一轮所有 agent 都要跑一遍，54 × 20 大约 1000 次完整调用。

我用的是 Kimi K2.6 Thinking。问题在于 thinking 这个模式关不掉，每次都要先思考再输出。一次思考几千个 token 是常态。1000 次乘起来，token 烧得让人心疼。

跑了几遍我开始想：这种场景，真的需要顶级模型吗？

每个 agent 在它那一轮里要做的事，无非是看一下上下文、根据自己的人设说一句话或者投个票，最后被汇总。每一次的智力门槛其实不高。把它换成一个去年级别的模型，比如 GPT-4o 那个档位的，效果可能差不多，速度还更快。

中等智力模型那个一直没人讲清楚的位置

过去一年一直有个问题没什么人讲清楚：什么场景该用次顶级的模型？大家都奔着最好、最贵的去，"中等"这个档位一直比较尴尬。

我现在看到两个非常具体的位置。

第一个是质检。判断一段音频自然不自然、判断一张图风格对不对、判断一段对话有没有跑题，对模型的要求其实是中等档位。让顶级模型来做这种事，等于用 Claude Opus 来检查 GPT-4o 写的代码。能做，但不划算。一个轻量级的视觉模型加一个 NISQA 这种专项模型，加起来比一次顶级调用便宜得多。

第二个是大量 agent 的模拟。MiroFish 这种把 1000 次推理串起来求一个集体演化结果的场景，对单次质量没那么敏感，对总成本极其敏感。这种场景的"最佳模型"不是最聪明的那个，是单次 token 单价乘以推理速度的综合最优。

这两个场景之前没被讲清楚，是因为没有真的需要工业化的人去做内容批量。等到你认真要做几千条音频、几万次 agent 推理，这两个位置就自己跳出来了。

本地化的第二个理由

也是这个时候我才看明白本地化算力为什么这么重要。

本地部署平时常被讲的两个理由：快、隐私。两个理由都对，但都不是最致命的。

最致命的是单位调用成本。

工业化产线注定要大量重试。云上的 TTS 按时长计费、token 模型按调用计费，重试一次就是一次账单。本地跑就不一样。一台 DGX Spark 跑 F5-TTS 或者 VoxCPM 这种开源模型，电费之外没有边际成本。挂在那跑一天，跑出来的素材足够用一周。失败了？再跑一遍，无所谓。

这是云模型和本地模型在工业化场景里的根本差别。前者按使用量收费，后者只收一次硬件钱。在重试率高的 pipeline 里，这个差别会被放大成两个数量级。

之前讲本地化讲不清楚的原因是大家拿 demo 的成本去对比。你 demo 跑一次 TTS 几毛钱，对比本地一台机器几万块，账永远算不平。但如果你换成工业化的成本去对比，把重试率、质检、agent 模拟都算上，账马上就翻过来。

三套模型，三个位置

写到这突然意识到，AI 内容工业化其实需要三套不同档位的模型同时跑。

顶级模型在最前面，负责最难的那部分内容生成。它单次贵但你不会让它跑很多次。

中等模型在质检和 agent 模拟，负责量大、智力门槛中等的活。它们要被反复调用，每次都不能太贵。

本地模型在最底下扛量。素材生成、向量化、转录、对齐这些苦活，能本地跑就不要走云。

这三套不会写在任何一个官方教程里，因为还在演化。但你只要真的下场去做内容工业化，迟早会自己拼出来这套结构。

回头看开头那句听起来像废话的话，我反而觉得讲得太轻了。AI 时代最重要的不是"可靠"本身，是"可靠"这件事的成本曲线。从 demo 到产线，那条 3 倍起步的曲线。

掌握了这个曲线，你才知道怎么花钱。否则你以为花了 1 倍的预算，账单回来你看到的会是 7 倍。