跳转到主内容
博客
Demo 一小时,产线三小时

Demo 一小时,产线三小时

最近做了几个 AI 内容批量化的项目,发现一件之前没算明白的事:从一个能跑的 demo 到一条全自动产线,时间是 3 倍起,不是 50%。多出来的两个小时全在质检和重试上。也是这一趟让我看明白,中等智力模型和本地化算力到底应该用在哪。

关嘉伟关嘉伟6 分钟阅读
分享:

网上经常有人讲一句话:AI 时代最重要的是可靠。

第一次看到这句的时候我觉得是车轱辘话。每个时代都被人挑一个词出来盖章,"聪明"和"执行力"之前都被讲过一轮,"可靠"听起来跟 AI 时代特别贴吗?也不见得。

最近自己手头几个项目,倒是把这句话讲明白了。

一天三个字,一百天上千条素材

之前给儿子做了个汪汪队认字游戏。每天三个字,一百天三百字。这个数字看着小。

问题是这一百天里每一天都是一个独立的小关卡。每天大概要六七张图,几十条音频。语音是克隆汪汪队里某个角色的声音生成的,每条对应一句台词。一百天合起来,几张图一算,几千条素材跑不掉。

第一天的 demo 跑通了。我跟儿子坐在那玩了二十分钟,挺开心。问题就出在这。

我以为剩下的事情就是把 demo 再跑九十九次。后来发现这件事跟 demo 是两个东西。

我从全量第一批跑出来的二十条音频里随机抽了两条听。两条都不行。一条吞了两个字,一条情绪完全跟台词对不上。剩下的十八条还敢用吗?再抽,还是有问题。那一百天合起来一千多条素材,到底有多少能用?心里没底。

这种没底的感觉是关键。它不是小问题,是会让你停手。

多出来的那一道叫质检

demo 之所以好做,是人在里面盯着。生成一条听一遍,不行重来,挑一个最好的留下。整个过程是手工的,人在中间做了一道隐形的质检。

想全自动,就得把"人在中间盯着"换成"模型在中间盯着"。这就是质检。

听起来简单。做起来打开了一个新世界。

一段音频,三四个模型同时打分

我开始翻一些行业里的非主流模型。常规听说的是 ASR 和 TTS——理解声音用 ASR,生成声音用 TTS。但是给 TTS 打质检分这件事,原来有专门一拨模型在做。

DNSMOS 是微软出的,最早给降噪算法打分用。它不需要原始干净声音作为参考,单凭一段音频就能判断里面有多少杂音、整体可不可听。后来发现它对 TTS 生成的人工痕迹也敏感。

NISQA 是柏林工大 Gabriel Mittag 那边做的,里面有一个 NISQA-TTS 的权重,直接评 TTS 自然度。它给的不是单一分数,是噪声、染色、不连续、响度几个维度的分。

UTMOS 是东京大学 SaruLab 团队的,VoiceMOS Challenge 2022 的冠军,现在是 TTS 圈打分的一个事实基线。我把它放在最外面做兜底。

最后还有一道反向 ASR:把生成的音频用 Whisper 再识别一遍文字,跟原始 script 对一遍,差太多就打回。这一道最朴素,但也最稳。

四个分加起来,超过阈值算合格,不合格触发重新生成。这套搭起来跑了一天,效果确实比单跑 TTS 强一截。

一倍时间变三倍,不是夸张

但成本也起飞了。

加质检之前我以为最多多一半时间。挑出错的重生成嘛,就算重生成的全错也就再跑一遍,最多 1.5 倍。

实际上 1 小时变成了 3 小时。

原因是模型在某一句话上就是过不去。同一段台词换不同种子生成,七遍、八遍、九遍都过不了质检的阈值。有时候得回退到换 prompt、换语速、换情绪标签才能挤过去。每一次重生成都是一次完整的模型调用,每次都要烧 token。

如果这套跑在云上,按时长计费,几分钟烧上百块不夸张。我后来粗算了一下,一个本来打算云端跑完的语音生成任务,按重试率折算,账单大概是 demo 那次的 7 到 10 倍。

这是我之前没算明白的一道账:从 demo 到产线,烧的钱按数量级走,不是按百分比。

同样的事,在另一个项目上又碰到一次

最近还在玩另一个项目,叫 MiroFish。

这是个挺有意思的开源项目,作者是中国的本科生郭航江,2026 年 3 月登过 GitHub Trending 全球第一,背后投资是盛大集团的陈天桥。它做的事情是生成一大堆带个性、带记忆、带社交关系的 agent,然后在两个模拟平台上让它们互相讨论、辩论、结盟、改观点,最后用一个 ReportAgent 把整个演化过程的结论总结出来,用来预测某个事件的走向。

我跑的配置不算大。一个事件大概 54 个 agent,时间线 20 轮。每一轮所有 agent 都要跑一遍,54 × 20 大约 1000 次完整调用。

我用的是 Kimi K2.6 Thinking。问题在于 thinking 这个模式关不掉,每次都要先思考再输出。一次思考几千个 token 是常态。1000 次乘起来,token 烧得让人心疼。

跑了几遍我开始想:这种场景,真的需要顶级模型吗?

每个 agent 在它那一轮里要做的事,无非是看一下上下文、根据自己的人设说一句话或者投个票,最后被汇总。每一次的智力门槛其实不高。把它换成一个去年级别的模型,比如 GPT-4o 那个档位的,效果可能差不多,速度还更快。

中等智力模型那个一直没人讲清楚的位置

过去一年一直有个问题没什么人讲清楚:什么场景该用次顶级的模型?大家都奔着最好、最贵的去,"中等"这个档位一直比较尴尬。

我现在看到两个非常具体的位置。

第一个是质检。判断一段音频自然不自然、判断一张图风格对不对、判断一段对话有没有跑题,对模型的要求其实是中等档位。让顶级模型来做这种事,等于用 Claude Opus 来检查 GPT-4o 写的代码。能做,但不划算。一个轻量级的视觉模型加一个 NISQA 这种专项模型,加起来比一次顶级调用便宜得多。

第二个是大量 agent 的模拟。MiroFish 这种把 1000 次推理串起来求一个集体演化结果的场景,对单次质量没那么敏感,对总成本极其敏感。这种场景的"最佳模型"不是最聪明的那个,是单次 token 单价乘以推理速度的综合最优。

这两个场景之前没被讲清楚,是因为没有真的需要工业化的人去做内容批量。等到你认真要做几千条音频、几万次 agent 推理,这两个位置就自己跳出来了。

本地化的第二个理由

也是这个时候我才看明白本地化算力为什么这么重要。

本地部署平时常被讲的两个理由:快、隐私。两个理由都对,但都不是最致命的。

最致命的是单位调用成本。

工业化产线注定要大量重试。云上的 TTS 按时长计费、token 模型按调用计费,重试一次就是一次账单。本地跑就不一样。一台 DGX Spark 跑 F5-TTS 或者 VoxCPM 这种开源模型,电费之外没有边际成本。挂在那跑一天,跑出来的素材足够用一周。失败了?再跑一遍,无所谓。

这是云模型和本地模型在工业化场景里的根本差别。前者按使用量收费,后者只收一次硬件钱。在重试率高的 pipeline 里,这个差别会被放大成两个数量级。

之前讲本地化讲不清楚的原因是大家拿 demo 的成本去对比。你 demo 跑一次 TTS 几毛钱,对比本地一台机器几万块,账永远算不平。但如果你换成工业化的成本去对比,把重试率、质检、agent 模拟都算上,账马上就翻过来。

三套模型,三个位置

写到这突然意识到,AI 内容工业化其实需要三套不同档位的模型同时跑。

顶级模型在最前面,负责最难的那部分内容生成。它单次贵但你不会让它跑很多次。

中等模型在质检和 agent 模拟,负责量大、智力门槛中等的活。它们要被反复调用,每次都不能太贵。

本地模型在最底下扛量。素材生成、向量化、转录、对齐这些苦活,能本地跑就不要走云。

这三套不会写在任何一个官方教程里,因为还在演化。但你只要真的下场去做内容工业化,迟早会自己拼出来这套结构。

回头看开头那句听起来像废话的话,我反而觉得讲得太轻了。AI 时代最重要的不是"可靠"本身,是"可靠"这件事的成本曲线。从 demo 到产线,那条 3 倍起步的曲线。

掌握了这个曲线,你才知道怎么花钱。否则你以为花了 1 倍的预算,账单回来你看到的会是 7 倍。


参考资料

推荐阅读

订阅博客更新

新文章发布时第一时间通知你,不会发送垃圾邮件。

仅用于博客更新通知,随时可以取消订阅。

评论

或匿名评论
0/2000