180度转弯
2025年底,算力市场还有点愁卖不出去。
到了2026年初,风向全变了。算力开始紧缺,价格往上涨。Kimi春节几天的API收入,顶得上之前一整年。
背后的原因不复杂:AI的用法变了。从对话到智能体,算力消耗量在短短两三个月里翻了百倍。有数据显示,Agent场景下单个用户的Token消耗是普通聊天的10到50倍,某些场景甚至涨了370倍。
云端的算力倒是利用得挺充分,大厂抢GPU,创业公司排队,资源没怎么浪费。
但边缘算力是另一回事。
边缘的困境
AIPC、边缘推理服务器、各种AI加速卡,这些设备正在快速发展,价格也在快速下降。英伟达的DGX Spark三万多,AMD的Ryzen AI Max+ 395甚至不到两万。算力相当可观,能推理不小的模型。
但用得好吗?
我看到的答案是:不好。
问题出在总拥有成本(TCO)上。设备本身便宜了,但其他成本项的比例被暴力放大了。
运维成本
一台20万的服务器,一年出两次故障,每次花1000块找技术人员处理,一年2000块。占设备价格的1%,可以忽略。
换成2万块的边缘设备。故障率不会更低——甚至可能更高,因为边缘环境更复杂。还是2000块运维成本。
但这时候占比变成10%了。从1%到10%,放大了十倍。
实际情况更糟。边缘设备现场运维单次成本能到500块一台,而且设备分散、巡检效率低。
冷启动成本
设备买回来是一块铁。
怎么把它变成真正的AI算力?怎么把性能发挥出来?
这事儿比想象中难。硬件日新月异,推理引擎五花八门,模型变化太快,异构架构让人头疼。ARM、x86、RISC-V并存,固件版本碎片化。有家企业2000台边缘设备因为固件版本不统一,故障定位耗时增加了3倍。
想用好这些设备,你需要一个懂硬件、懂推理引擎、懂模型、懂应用的人。这样的人月薪两万不算离谱。
但设备本身才两万块。
等于为了用好一台设备,付出100%的溢价。这在商业上不成立。
持续使用成本
设备跑起来不是结束,是开始。
2026年,头部大模型厂商的更新速度快到让人眼花。每隔一两个月就有一款重量级新模型发布。谷歌Gemini一年内从2.5迭代到3 Flash,阿里Qwen3系列密集发布,DeepSeek、Kimi轮番登场。
如果你的边缘设备还在跑一年前的模型,它的价值可能只剩10%。
跟上这个节奏意味着持续的升级、适配、测试、部署。这些投入按人头算,不会因为设备便宜了就打折。
人真的想参与吗?
传统软件的解决思路是:设计一套系统,让人来操作。
这套思路有个隐含假设:人是愿意参与的。
但在边缘AI这个场景,这个假设成立吗?
想想电力。人用电,但不参与电力的生产和管理。电力是基础设施,人只管用。没人会觉得需要"参与电力的生产过程"。
边缘AI设备应该一样。
它们是基础设施,不是工具。理想状态是设备自运行、自修复、自升级,永远不出故障。
人如果能不参与,那就太好了。
这意味着设计思路的转变:让设备自己管理自己,让人待在循环外面,软件不是人的工具而是设备的"神经系统"。目标不是减轻人的负担,是消除人的参与。
怎么做到?
我觉得有几个趋势可以利用。
一个是AI Agent本身的能力在快速增强。如果你的产品不让Agent参与核心流程,那它就跟这个时代脱节了。Agent可以在不需要人干预的情况下完成运维诊断、故障修复、性能调优、模型升级——把那个"需要2万月薪的人"做的事自动化掉。这不是未来时,2026年的Agent能力已经够用了。
另一个是开源社区的协作。边缘AI面临的是一个四维最优解问题:硬件设备乘以推理引擎乘以模型乘以应用。每个维度都在快速变化,单靠一家公司跟不上。但Agent普及之后,基于代码仓的协作变得容易了。产品需要思考的是怎么让更多人和Agent参与进来,共同应对复杂度的增长。
最后是互联网基础设施。边缘设备的特点是零散——AIPC和边缘服务器分布在办公室、工厂、门店、家庭,不像数据中心那样一个机房几千上万台集中管理。要把这些零散设备的价值挖出来,必须用互联网。远程监控、OTA升级、云端协同,这些不是可选项。
写在最后
边缘AI的TCO问题,本质上是管理理念的问题。
继续用"以人为中心"的思路设计产品,运维成本会继续放大,冷启动成本会继续高企,持续使用成本会继续吞噬价值。
解决的方向是让AI参与进来。用Agent自动化运维,用社区分摊复杂度,用互联网连接零散设备。
这是我们在做的事情。