engineering guide

Claude Computer Use 改变一切,NanoClaw 容器提供安全的视觉环境

NanoClaws.io

NanoClaws.io

@nanoclaws

2026年3月5日

8 分钟阅读

Claude Computer Use 改变一切,NanoClaw 容器提供安全的视觉环境

2026 年 3 月 5 日,Anthropic 发布了 Claude Code 的 Computer Use 功能。这不是一个渐进式的改进——它是一次能力跃迁。

Claude 之前通过文本交互:你输入指令,它返回文字或代码。Computer Use 改变了这个范式:Claude 现在可以看到屏幕截图,理解 GUI 元素的位置和含义,移动鼠标指针,点击按钮,输入文字,在真实的应用程序中执行操作。它可以浏览网页、操作桌面应用、处理那些没有 API 只有图形界面的工具。

对于 AI agent 来说,这是一个根本性的能力解锁。世界上大多数软件不提供 API——它们只有 GUI。Computer Use 让 AI agent 能和这些软件交互,就像人类用户一样。

但这个能力也带来了一个同等量级的安全问题:你真的想让一个 AI agent 看到你的整个桌面,控制你的鼠标吗?

视觉 Agent 的安全难题

Computer Use 的安全挑战和传统的 API 调用完全不同。

当 agent 通过 API 工作时,它的能力边界是 API 的接口定义。它只能做 API 允许的事情,以 API 规定的方式。你可以通过 API 权限来精确控制 agent 的能力。

当 agent 通过 Computer Use 工作时,它的能力边界是屏幕上可见的一切。如果你的邮件客户端在打开状态,agent 可以看到(并操作)你的邮件。如果你的浏览器有一个标签页登录着银行账户,agent 可以看到(并操作)那个页面。如果你的桌面上有包含敏感信息的文件,agent 可以看到文件名。

在宿主系统上直接运行 Computer Use agent 意味着 agent 拥有和你一样的视觉访问权限——它能看到你能看到的一切。对于一个处理不可信输入的 agent 来说(比如处理来自群聊的消息),这个权限范围太大了。

容器中的视觉环境

NanoClaw 的容器架构为 Computer Use 提供了一个自然的安全解决方案。

容器内可以运行一个完整的 GUI 环境——通过 Xvfb(虚拟帧缓冲)或类似方案。这个虚拟桌面对容器外不可见,容器内的 agent 只能看到和操作这个隔离的虚拟桌面。宿主的真实桌面、真实应用、真实数据对容器内的 agent 完全不可见。

这意味着你可以让 agent 使用 Computer Use 来浏览网页、操作应用、处理 GUI 任务,但它的视觉范围被限制在容器的虚拟桌面内。如果你需要 agent 操作某个网站,容器内启动一个浏览器就行了。如果你需要 agent 处理某个文件,把文件挂载到容器内就行了。Agent 只能看到你明确给它的东西。

NanoClaw 的容器镜像已经包含了 Chromium 和 agent-browser。Computer Use 功能不需要新的架构——它只是在已有的容器环境中多了一种交互方式。浏览器在容器内运行,agent 通过 Computer Use 操作容器内的浏览器,一切都在隔离边界之内。

精确的权限控制

容器化的视觉环境还提供了精确的权限控制。

你可以决定容器的虚拟桌面上有什么应用。需要 agent 浏览网页?挂载浏览器。需要处理文档?挂载文档编辑器。不需要的应用不存在于容器中,agent 自然无法看到或操作它们。

你可以决定容器能访问哪些网络资源。需要 agent 访问特定网站?配置容器的网络策略只允许对应的域名。不需要 agent 访问你的内网服务?容器网络默认就不连通。

你可以决定容器内有哪些文件。需要 agent 处理某份报告?挂载那份文件。不需要 agent 看到你的其他文件?它们不在容器的文件系统中。

这种精确控制在宿主系统上几乎不可能实现。你无法轻松地让一个桌面应用只看到屏幕的一部分,只访问特定的文件,只连接特定的网络资源。但在容器中,这些都是开箱即用的。

Computer Use 的未来

Computer Use 仍处于早期阶段。当前版本在复杂 GUI 操作上仍有局限——精确点击小元素有时会出错,多步骤的 GUI 工作流需要更多的错误恢复逻辑,某些应用的渲染方式对 AI 理解不友好。

但方向是清晰的:AI agent 的能力正在从文本世界扩展到视觉世界。未来的 agent 不仅能读写代码和文本,还能像人类一样操作任何有图形界面的软件。

当这个未来到来时,安全问题会变得更加紧迫。一个能操作 GUI 的 agent 比一个只能调用 API 的 agent 危险得多——因为 GUI 操作的粒度更细、范围更广、后果更难预测。

NanoClaw 的容器架构为这个未来提供了一个已经就绪的安全框架。不是因为 NanoClaw 预见了 Computer Use——而是因为"在隔离环境中运行不可信代码"这个原则,无论代码的能力是文本处理还是视觉操作,都一样适用。容器不关心里面运行的是什么——它只负责确保里面的东西出不来。

现在开始构建 AI 代理

获取新版本发布、集成和 NanoClaw 开发动态。无垃圾邮件,随时退订。