Name: 端云结合，让 OpenClaw 更有趣也更安全
Start: 2026-04-17T00:00:00.000Z
Location: 2026 中国生成式 AI 大会（北京站）

这场是我在 2026 中国生成式 AI 大会（北京站）OpenClaw 技术研讨会 上讲的。名义上是以趋境科技副总裁的身份去的，但我更想用每天都在帮人装 OpenClaw 的那个身份讲这件事。

为什么做这场

帮几十个人远程装过 OpenClaw 以后，我越来越清楚一件事：OpenClaw 这种 agent 形态，把"硬件载体"这个问题重新推到了台前。以前电脑就是电脑，现在你得先想好，agent 到底跑在哪台机器上，24 小时开着还是要人管着，数据在本地还是在云上，出了事谁负责。

这些问题没有一个能在纯端或纯云里答干净。端侧便宜、私密、能异步算，但智能封顶早；云端聪明得狠，但隐私、成本、法律责任全卡住。短时间里能走通的只有端云结合这一条路。这场就讲这条路。

三个观点

端侧设备别再去卷大模型。 算力、带宽、内存供应链三座大山一起压着，盒子该追的不是"能跑 70B"，是"醒着、便宜、安静"。
多模态才是端上值得跑的。 Embedding、ASR、TTS、OCR、VLM 这些小模型天天都要用，共同点是不想外传、又不着急，偏偏云上按秒扣费贵得离谱。
AIMA 把端云结合做成一条能走通的路。 从安装到连接到交互，一口气打通。你对着云端说一句"安装 openclaw 到这台机器，连 llm，连飞书"，端和云立刻一起动起来。

为什么说"更安全"

这场我花了不少篇幅讲安全，因为这是端云结合最容易被漏掉的那个优势。

架构上，OpenClaw 默认只跑在 localhost，后台工具都在 127.0.0.1，只有一个 Gateway 通过 IM 长链接走出去，外面摸不到你的机器。

法律上，端是"卖"，云是"租"。卖烟的一手交钱一手交货就完事，开烟馆的要承担从犯责任。Agent 一旦自己会做决策，归属权清晰的那方最安全。

演讲实录

开场：从基础设施视角看 agent 时代

大家好，我是趋境科技的关嘉伟。今天这个题目是端云结合，让 OpenClaw 更有趣，也更安全。趋境科技做的是基础设施，主要关心模型推理和使用成本，所以这场我想换一个维度聊：当 OpenClaw 这种智能体开始普及，硬件会出现什么新变化。

顺便说一句，这次的"幻灯片"其实是一个网页，不是 PPT。我个人观点稍微激进一点——到年底差不多就没什么人在用 PPT 软件了。让 agent 去画 PPT 非常吃力，本质上 PPT 就是把网页代码套了一层"无代码工具"的壳；但反过来让 agent 直接做网页，又快又比我自己做得漂亮。这背后的反思是：agent 起来之后，所有基础设施都要重做一次，会有非常大的变革。

帮人装 OpenClaw 带来的反思

除了公司身份，OpenClaw 火了之后，我个人帮别人装过的"小龙虾"已经超过 100 只。装的过程里发现一些很有意思的问题。最常见的一个是：装完没多久就有人来问我"我的小龙虾怎么不回复了？"我让他看下机器开着没，他说"哎，我不小心给关机了"。

这事很常见。PC 时代大家的习惯就是不用就关掉，人不在就关机。但到了 agent 时代，硬件需要 24 小时常开、随叫随到。需求变了，硬件形态自然也要变。OpenClaw 火了之后，Mac mini 卖断货就是这个逻辑——大家原本看不上的小盒子，突然发现设计好得不行：占地小、静音、长期运行功耗低，也不像 Windows 越跑越卡。

端侧跑大模型的挑战

第一个观点：当前在端侧设备上把大模型完全装进来，基本没什么机会，未来有，但当下不行。

我试过用一台 128G 统一内存的设备跑一个 30B 多的模型，去接 OpenClaw 给别人用。试完反馈是"感觉有点笨"，马上换成 Kimi——完全是两个物种，不是一个档次的差距。一个经常任务中断、跑偏；另一个明显在按你的指令做事。所以智能体的核心 driver 还是在云上的大模型这一侧。

那端侧应该长什么样？至少几个特点：要小，不占地方；最近我都在认真考虑家里要不要装一台小服务器，以前没这种需求，是 agent 把它逼出来的。还有稳定性，比以前的要求高一个量级。我以前是 Windows 重度用户，最早公司发 Mac 我都接受不了，现在彻底成了 Mac 党、Windows 黑——你在 Windows 上装 OpenClaw 体验极其糟糕，经常卡死、假死、机器疯狂发热，一堆冗余功能和"安全设计"完全不为 agent 服务。

端侧的好场景：多模态与隐私

我们认为端侧最适合的场景是多模态。原因有两个：成本，和隐私。

成本上，云端调用 Omni 模型解析视频的价格离谱到不想看——服务器本身不算贵，但流量极贵，而音视频文件本身就大，传进传出天然就是高成本。

隐私上，文本传到云上你大致还能心算"它传了啥"，但你没法"看一眼"就判断一段一小时的视频里有没有敏感信息。家里摄像头数据、语音数据，这种风险在多模态上是指数级跳的。大家用的小爱同学之类，其实挺吓人的：你聊到敏感话题它突然冒一句"在"——它一定全程在听并且把声音传到了云上。

所以美国不少 OpenClaw 用户现在都在想办法把家里的智能设备接进 OpenClaw 来本地化处理。这就给硬件提了一类新场景：把多模态装本地，把大脑放云上，两边各干各擅长的事。

AIMA：让 AI 帮你管理 AI 基础设施

我们做了个软件叫 AIMA，理念是"用 AI 管理 AI 基础设施"。

启动体验有点像 Ollama，一插电它就告诉你这是什么硬件、能跑什么模型，可以一键把网上的模型拉到本地或把本地模型起起来。Ollama 跑语言模型很顺，但跑多模态其实很繁琐——比如想让 OpenClaw 接一段克隆声音陪你聊天（OpenClaw 现在有 soul 文件让 agent 有自己的性格，很多人就是觉得只缺一把声音），TTS 模型在本地跑还挺有挑战的。AIMA 想做的就是让多模态、多推理引擎也能像 Ollama 那样"装上即用"。

软件本身原生支持 OpenClaw：在 AIMA 里点一下，就能把机器上跑着的模型一键推给 OpenClaw 使用，反过来 OpenClaw 也可以来调它。

灵机云：兜底的云上 agent 团队

光有端不够。我帮人装 OpenClaw 时，大量时间花在解决"我的龙虾为啥不灵了"。有个用户更绝——他装完龙虾之后让龙虾自己换模型，等于让 agent 给自己开脑做手术，中间换炸了，OpenClaw 直接挂掉，他也不会改 API。

这种时候你需要一个比卡住的本地 agent 更强的"医生"。我们在 AIMA 里点一下就能连上 emmaservice（灵机云）：背后是一支分布式的、多模型接入的云上 agent 团队，能一键给你装最新版 OpenClaw、连语言模型、连飞书。它不是脚本，是真正的云端智能体。你不叫它它不来，你需要时它进来帮你诊断、分析、执行——不跟你聊天，不给你建议，直接搞定。

硬件需求随技术周期快速转移

我们做基础设施这些年，亲眼看着硬件需求随技术周期反复转移。去年这个时候卖断货的是 H20——DeepSeek 太火，针对那一类模型的硬件直接被打爆。到今天我们在台上聊 OpenClaw，卖断货的变成了 Mac mini，没人想到 AI 行业会带火一台跟 AI 看起来没啥关系的小电脑——你现在去官网买 Mac mini 要等两个月，不是钱的问题。

这意味着每次新趋势来了，原本的产品和设计都要重新构思。

端云分工：让端做好端的事

端云本质上应该各发挥所长。现在很多产品在想"用端替代云"，但像智能体、Web Coding 这种场景，模型小就是难用，难用到让你失去使用欲望——这种事就该让云上去做，云的智能强、相对成本低。

端侧应该做的是它原本就擅长的事。比如装个 Windows 笔记本去跑 agent，就是给自己找事；硬件资源天天闲置，不如把闲置算力拿去跑多模态。想象一下家里花几万买一台小服务器，把所有摄像头数据丢进去，对延迟不敏感，睡一觉起来给我一份昨天的分析报告——孩子互动安不安全？有没有危险行为？老人交流要不要改良？最后报告生成时再调云上的语言模型润色，这种"端做感知、云做大脑"的分工成本和隐私都能接受。

安全：架构层

很反常识的一个观点：OpenClaw 放在本地比放在云上更安全。

很多云厂会给你讲"放云上才安全，我们专业"，但 OpenClaw 的设计其实只对外开了一个端口——和你的 IM 互动。剩下的全部跑在本地。如果你不主动发起奇怪行为，OpenClaw 是静止的，外面只有 IM 那条通道能进来。只要 IM 那条链路没被劫持，机器整体是相当安全的。理论上比云上要安全。

安全：法律层

第二个反常识的视角：从法律上看，个人拥有硬件跑自己的智能体，比租云服务器跑要合理得多。

举个例子。你买回来的设备上跑的智能体、产生的资产都是你的，做了什么由你承担责任，归属清晰。但租云上是什么情况？有点像我开了个烟馆，你过来抽烟。Agent 现在自主性已经很强了，比如最新的模型已经能去做黑客攻防。

假设你在某个云厂租服务器跑 OpenClaw，丢一句模糊指令"帮我赚钱"——autogpt 火的时候第一个指令永远是"怎么让我成为百万富翁"。万一 agent 抽风选择了"当黑客勒索"这条赚钱路径，攻进了某个安全薄弱的地方搞了一票，犯罪了，责任怎么分？说全在你？你只是让它赚钱。云厂的服务器成了作案工具甚至作案场所，这是个全新的法律问题，以前根本不存在。

云厂发现这事之后会怎么办？大概率是涨成本、砍功能。这就是为什么很多人觉得云上的东西"有些事它就是干不了"——不是技术问题，是责任问题。

Agent 需要载体：数字员工的硬件位

如果想让 OpenClaw 这类 agent 从玩具走到工具，端云结合几乎是必经之路。纯云方案在脑袋、责任、多模态成本这三件事上都很难解干净。

往下走还有个具体场景。企业里如果只是开一堆 Docker 跑 agent，是替代不了一个数字员工的——以前的基础设施全部以"为人设计"为前提，agent 连一个独立 IP 都没有，进入真实互联网很容易被识别成爬虫直接封掉。每个数字员工需要一个真正的硬件载体，才有可能在真实社会里跑起来。

可以想象未来：员工入职公司发笔记本，agent 入职公司发一台 agent box——专门为 agent 设计的硬件，跑在角落里 24 小时不睡，只在它失常时才需要人介入。已经有很多硬件厂商在做这件事，欢迎一起来实践。

收尾：实践大于理论

这个网页（也是我的个人主页 guanjiawei.ai）本身就是端云结合时代的一个例子。开发一个个人官网的成本已经低到我难以想象——一个下午就能做出来，比我以前想象的"个人网页"高大上得多。

做这个网页、这套幻灯片，我用的是别人写的 skill（不是我写的），从 GitHub 拉下来，配合 Claude Code 加 Gemini 的图像生成一起打磨。整个过程效率高到难以想象。如果一个人现在还没用上 agent，他甚至不知道经验传承可以这么快——口述加手把手要花几小时的事，编成一个 skill 给一条链接，对方 5 分钟就能复刻。

所以今天主题虽然是端云结合，但更想说的还是：先把 agent 用起来，价值远大于任何理论分析。今天黄老师的分享我也很有共鸣，所有结论都来自团队实践，只有实践完才有发言权。这就是我的简单分享，谢谢大家。

关联阅读

现场使用说明

翻页： 方向键 / 空格 / 触屏滑动 / 右侧圆点跳转
全屏： 推荐直接打开原始 HTML（页面右上角"全屏打开"按钮）

这场的幻灯片，结构、文案、视觉、插画全在一个 session 里跑完，用的是 Claude Code + Gemini。你要是也想用 agent 做演讲稿，直接来问我。