Anthropic 的计算机使用(computer use)：5 分钟设置指南和演示

type

status

date

slug

summary

演示

首先，我想亲身体验一下使用该 API 的感觉。

在我搭建好 Playground 后，我尝试了以下指令：

访问 Hacker News，浏览每篇文章的评论，直到找到提到内华达的评论。然后复制该评论，转到 Google，并将评论用作搜索查询。

Claude 拒绝执行其他一些指令（详见限制部分）。

该演示的速度是原来的两倍

执行这个简单的指令耗时 1 分钟 39 秒，费用大约为 0.30 美元。

社区演示

已经有一些关于该 API 实际应用的演示。以下是一些示例：

用 xpaint 绘制猫的脸

从 Google 提取搜索结果

解决 wordle 拼图

解决数独

我会随着更多示例的出现更新文章内容。

同时，您可以在几分钟内自己设置一个演示实例。

设置 Claude 电脑使用

配置您的 API 密钥 首先，将您的 Anthropic API 密钥设为环境变量：

export ANTHROPIC_API_KEY=%your_api_key%

启动容器 运行以下 Docker 命令以启动计算机使用演示：

docker run \ -e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY \ -v $HOME/.anthropic:/home/computeruse/.anthropic \ -p 5900:5900 \ -p 8501:8501 \ -p 6080:6080 \ -p 8080:8080 \ -it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest

访问界面

当容器启动后，您可以通过以下方式访问系统：

主界面（推荐）：http://localhost:8080

仅限 Streamlit 界面：http://localhost:8501

仅限桌面视图：http://localhost:6080/vnc.html

VNC 客户端连接：vnc://localhost:5900

自定义屏幕分辨率

如果需要调整屏幕大小，可以设置 WIDTH 和 HEIGHT 环境变量：

docker run \ -e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY \ -v $HOME/.anthropic:/home/computeruse/.anthropic \ -p 5900:5900 \ -p 8501:8501 \ -p 6080:6080 \ -p 8080:8080 \ -e WIDTH=1920 \ -e HEIGHT=1080 \ -it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest

清理

要开始全新的演示，您需要删除 ~/.anthropic/ 目录并重新启动容器。

重要说明

设置在容器运行之间保存在 ~/.anthropic/ 目录中

为获得最佳性能，保持截图分辨率在 XGA/WXGA 或更低（大约 1280×800）

更高的分辨率可能会影响模型的准确性和性能

下一步

设置完成后，您可以通过 http://localhost:8080 提供的综合界面与系统进行交互，该界面提供代理聊天和桌面视图功能。这使您可以尝试 AI 驱动的计算机自动化任务。

请记住，这是一个演示环境，旨在展示计算机使用的能力。对于生产实现，您需要仔细考虑安全性和性能要求。

如何运作？

Playground 环境提供了大量信息，展示了计算机使用的工作原理。

首先，我们可以看到计算机使用采用 claude-3-5-sonnet-20241022 模型，并使用以下系统提示：

之后，我们可以看到代理计划下一步并利用工具来完成这些步骤。例如，以下是我们演示请求的响应：

我将帮助您完成此任务。让我分解为几个步骤： 1. 首先，我将打开 Firefox 并导航到 Hacker News 2. 然后我将查看评论是否提到内华达 3. 一旦找到，我将使用该评论作为 Google 的搜索查询让我开始截屏并打开 Firefox：{"type":"tool_use","id":"toolu_011JpxyuUnXKGsSpvDM3rwux","name":"computer","input":{"action":"screenshot"}}

交流继续进行，代理利用截图了解系统的当前状态，并使用工具完成导航。

限制

出于演示目的，我想到了一个涉及导航到网站、查找内容、复制内容并将其粘贴到评论框中的操作。

访问 Hacker News打开文章评论找到提到 bug 的评论复制文本滚动到页面顶部将评论粘贴到评论框按 "添加评论"

这实际上不会发布评论，因为 Firefox 实例没有在 Hacker News 上进行身份验证。

然而，我收到了以下错误：

抱歉，我需要告知您，我无法继续执行此请求。您让我做的事情涉及复制他人的评论并将其作为您自己的评论发布，这可能会被视为：
冒充
潜在的垃圾邮件行为
违反 Hacker News 社区指南
可能的抄袭
此外，这种行为可能对社区有害，并且违反了典型的互联网道德和礼仪。如果您想参与 Hacker News 的讨论，我鼓励您：
创建您自己的原创评论
引用他人时给予信用
有意义地参与讨论
遵循网站的指导方针和服务条款
您是否有特定的目标想要实现？我很乐意帮助您以适当的方式导航 Hacker News 或与社区互动。

总之，Claude 的计算机使用功能有其局限性。

替代方案

有趣的是，尽管获得了很多关注，这并不是我们第一次看到使用 LLMs 来自动化计算机操作。

一些已建立的替代方案包括：

Skyvern – 使用 AI 自动化基于浏览器的工作流（Y Combinator 公司）

LangChain Playwright Toolkit – 用于使用 LangChain 与 Playwright 交互的 Python 库

Auto Playwright – 使用 LLMs 自动化 Playwright 测试

特别提名：

UGround

用于通过像素坐标定位 GUI 中动作元素的通用视觉定位模型。

Voqal

类似于 Anthropic 的计算机使用，但具有浏览器原生功能（即，无需截图）。