硬件载体在变
端上跑得动多模态和隐私数据,云上有真正聪明的模型
两边走到一起,事情才刚开始有意思
家里的路由器一直开着,没人觉得奇怪
我帮人装完 OpenClaw 才发现,大家脑子里那个"AI 工具"还长着电脑的样子
其实不是 它该一直在那儿
来自一个真实问题
"我不小心把电脑关了
怎么说话没反应"
算力、带宽、内存供应链,三道墙一起卡在"本地跑大模型"这条路上
盒子的价值从来不在能跑多大的模型,在醒着、便宜、安静
16G 统一内存就够
不必追 64G、96G
GPU 跑 embedding
NPU 跑视觉
每颗芯片都别闲着
常开 低功耗 安静
放客厅像个路由器
大家都在想端上怎么跑通用大模型,这条路其实太贵
划算的是那些小的、数量多的、天天要用的辅助模型
共同特征就三条:不想外传、不着急、云上按秒扣费扣得吓人
记忆向量化
私人资料不外传
语音转文字
端上速度足够
情感音色克隆
云端按分钟扣费
敏感合同识别
不想让它上云
图片和视频理解
摄像头场景最典型
现在家里装监控的越来越多
真要把视频传上云,大部分人心里不舒服
云上视觉大模型的单次价格,对一个普通家庭也过分
视频分析本来就不着急
晚上慢慢算,白天看结果就行
端侧 VLM 加上异步 隐私留下 账单也留下
从安装到连接到交互,一条链路一次走通
接下来用五张真实截图带你过一遍
不用你去查 GPU 型号、算 VRAM、配 arm64 环境
AIMA 一打开就认出来了
GB10、119.6GB 显存、Cortex-X925、Docker 就绪
然后把这些信息喂给后面的路径
GPU、CPU、RAM、架构
全部自己认
Docker、K3S 状态
直接告诉你
"查看推荐模型"是 AIMA 按你的硬件给你排好的清单
"使用本地模型"是你手里已经有的那 18 个
不管走哪条,装 agent 这件事,用 agent 的方式完成
▸ 没有门槛,有硬件就能开始
不是"能装吗",是"装完了能跑多快"
qwen3-asr-1.7b · 621%、tts-0.6b · 619%、qwen3-32b · 592%
辅助模型一抓一大把,稍微大点的也能在端上试跑
要点
端上跑的不是一个大模型
是围着 agent 转的一整套辅助模型
embedding、ASR、TTS、图像、视频,每样都有得选
这是我整张幻灯片最想停一下的瞬间
AIMA 是盒子,OpenClaw 还差一口气
一旦接上,这台 GB10 才真正变成有工具调用、有模型推理、有持久记忆的 agent
▸ 硬件 + 模型 + OpenClaw 才算齐
用户对云端说的一句话
"安装 openclaw 到这台机器
连 llm 连飞书"
云端大模型把意图拆成一串命令,下发
端侧 AIMA 接到以后跑任务,把进度汇报回来
一句自然语言,两边一起动起来
端 + 云 不是折中 是互补
它不暴露在公网上
后台工具全在 127.0.0.1
只有一个 Gateway 通过 IM 长链接走出去
外面摸不到你的机器
▸ 安全是架构层面的事 不是事后找审计员
端 · 卖烟的
"吸烟有害健康"提示到位
一手交钱一手交货,就结束了
资产归你,责任归你
云 · 开烟馆的
你在我场所,用我工具,我还按时收你钱
真出事了
我就是从犯
Agent 不再只是工具,它会自己做决策
一旦真出事,法律会追到最近的那个"持有人"
端侧设备是卖给你的,归属权最干净
来源 《边端AI的第三个理由:法律》· guanjiawei.ai/blog
一句"连飞书"
端侧起机器人 云端解析意图
以前 95% 的人会卡在这一步
现在 30 分钟跑通
盒子常开 云端回调触发任务
你关电脑没关系
服务不在你的电脑上
在那个盒子上
远程 agent 自己装
自己连 自己排错
装了几十台下来
它越来越上手
安装 → 连接 → 交互
以前每一步都在卡人的环节
现在都被 agent 吸收了
洪水很大 最后船上站不了多少人
你希望那条船上的人是谁