跳转到主内容
博客

AI盒子该像路由器一样无聊

边端设备别去卷大模型了。用GPU跑TTS,用NPU跑OCR,塞一堆辅助小模型进去,做成Mac mini加强版,扔在角落24小时跑着。像路由器一样,无聊才对。

3 分钟阅读
分享:

之前写了三篇边端AI,分别聊了成本权力法律。都是在说"为什么要做边端"。这篇往下走一步,聊聊这个设备到底该长什么样。

大模型在边端跑不动

我们测过不少盒子。AMD的,我们自己的,结论都一样:跑大语言模型,不行。不是某个产品不行,是这类设备都卡在同一个地方。Prefill性能上不去,decode勉勉强强。

有的设备搞了块NPU,标称50T算力,听着吓人,结果跟GPU和CPU串不起来。搞了半天发现根本用不上。芯片厂商的优化精力肯定先给最新一代,毕竟要PK英伟达,放在边端的都是上一代的东西,优化弱一层,生态也跟不上。

供应链更麻烦。稍微好一点的内存,一月买1万,二月涨到2万,还拿不到货。想靠堆硬件解决,堆不动。

真正卡住用户的不是算力

你装一个Agent平台,它马上开始让你关联外部服务。要做记忆?关联个OpenAI的embedding。要语音?关联个ElevenLabs。画图找Google,做PPT再接个MCP。每个单独注册、单独付费。国内用户更麻烦,Kimi可能根本不提供embedding API,你得满世界找别的账号来补。

少接一个服务,Agent就弱一截。

这些辅助能力,embedding、TTS、ASR、OCR、视觉理解,每个都不大,不吃算力。但它们合在一起,才是决定Agent好不好用的东西。边端设备在大模型上打不过云端,但这些小模型,它完全跑得动。

NPU别浪费了

NPU有50T算力串不起大模型?那塞个OCR进去,或者跑个VLM做视觉。我也不确定什么最合适,得看具体芯片架构,但NPU本来就是给CV场景设计的,视觉类的任务大概率能吃上。

GPU跑TTS和embedding,两个模型都不大,embedding几百M,音频模型一两个G。

我在AMD盒子上实测过,纯CPU跑阿里的TTS模型,一点几亿参数的小东西,说一小段话要等二十几秒。没有加速引擎,vLLM不支持,只能transformer原生推。换到GPU上完全不是一个体验。ASR倒是CPU就能扛住,所以GPU管合成,CPU管识别,NPU管视觉。

这样配下来,一台设备上embedding、TTS、ASR、OCR、VLM全在本地跑。用户不用关联任何外部账号,Agent的辅助能力直接就有了。

做成路由器

有个用户跑来找我,说他不小心把电脑关了,发现AI没反应了。特别搞笑,电商一大哥专门过来问。

但你仔细想,这不是用户的问题。做成电脑的样子,人就是会关机。笔记本是带着走的,用完合上。但Agent是要24小时跑着的,你一关机它就断了。

我后来觉得这东西的形态就不该像电脑,该像路由器。你家路由器你关过机吗?它在角落里安安静静地跑,你根本不会去想它。散热做好,噪音压低,功耗控制住,扔在那里就完了。

Mac mini加强版。内存16GB够了,我们之前规划过64G的方案,后来发现根本用不上。16GB统一内存跑辅助模型绰绰有余,加上GPU和NPU各自的算力,喂饱这些小模型没有问题。

企业为什么要买一堆

企业想用数字员工,最头疼的是数据隔离。

把所有数字员工塞一台服务器里,用Docker隔?Agent权限太大了,给它权限它就能穿透。你可以想各种办法去拦,但只要它足够聪明,容器拦不住它。我也一直在想这个问题,在一台机器里做隔离,架构会变得极其复杂。

最笨也最有效的办法就是物理隔离。一台盒子一个数字员工,产品经理的盒子里只有产品相关的数据,碰不到财务。财务的盒子碰不到代码仓库。你物理上隔开了,什么权限穿透都不用操心。

有朋友已经在这么干了,4台Mac mini加4个云端模型,8个数字员工各管各的。所以一个企业可能不是买一台,是买一组。每台够跑辅助模型就行,要的是数量,不是单机有多猛。

摄像头数据这件事

很多家庭装了监控,但那些录像你真的去翻过吗?大概率没有。传到云上分析又贵又不放心,不传就堆在那里吃灰。

我一直觉得这是本地视觉模型最经典的场景。晚上反正闲着,让盒子把一天的摄像头录像过一遍,有异常就标记,第二天早上给个摘要。不着急,慢慢算就行。不调云端API,不按token收钱,数据从头到尾不出家门。

企业园区也是同样的问题,大量隐私视频数据,你给它时间去处理,不需要实时,但要便宜,要数据不出去。这种场景交给云端,怎么算都不划算。

往这个方向做,能搞成

说白了就是:别拿边端设备去跟云端拼大模型。跑辅助模型,embedding、TTS、ASR、OCR、VLM,把GPU、NPU、CPU都用起来。做成路由器的样子,24小时在线,16GB内存。个人一台,企业买一组,物理隔开。

之前三篇文章讲为什么值得做,这篇讲该做成什么。我现在觉得方向基本上是对的,剩下就是谁先把这个产品做出来、做便宜的问题了。

推荐阅读

订阅博客更新

新文章发布时第一时间通知你,不会发送垃圾邮件。

仅用于博客更新通知,随时可以取消订阅。

评论

或匿名评论
0/2000