Anthropic 的计算机使用(computer use):5 分钟设置指南和演示

Anthropic 的计算机使用(computer use):5 分钟设置指南和演示
type
status
date
slug
summary
tags
category
icon
password

Anthropic 最近发布了一项名为计算机使用的功能——这是一种通过屏幕观察、光标移动、按钮点击和文本输入来自动化计算机操作的 API。
我们发现,本地设置 Playground 演示非常简便。
示例代码
/

演示

首先,我想亲身体验一下使用该 API 的感觉。
在我搭建好 Playground 后,我尝试了以下指令:
访问 Hacker News,浏览每篇文章的评论,直到找到提到内华达的评论。然后复制该评论,转到 Google,并将评论用作搜索查询。
Claude 拒绝执行其他一些指令(详见限制部分)。
notion image
该演示的速度是原来的两倍
执行这个简单的指令耗时 1 分钟 39 秒,费用大约为 0.30 美元。

社区演示

已经有一些关于该 API 实际应用的演示。以下是一些示例:
我会随着更多示例的出现更新文章内容。
同时,您可以在几分钟内自己设置一个演示实例。

设置 Claude 电脑使用

  1. 配置您的 API 密钥 首先,将您的 Anthropic API 密钥设为环境变量:
export ANTHROPIC_API_KEY=%your_api_key%
  1. 启动容器 运行以下 Docker 命令以启动计算机使用演示:
docker run \ -e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY \ -v $HOME/.anthropic:/home/computeruse/.anthropic \ -p 5900:5900 \ -p 8501:8501 \ -p 6080:6080 \ -p 8080:8080 \ -it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest
  1. 访问界面
当容器启动后,您可以通过以下方式访问系统:
  • VNC 客户端连接:vnc://localhost:5900

自定义屏幕分辨率

如果需要调整屏幕大小,可以设置 WIDTH 和 HEIGHT 环境变量:
docker run \ -e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY \ -v $HOME/.anthropic:/home/computeruse/.anthropic \ -p 5900:5900 \ -p 8501:8501 \ -p 6080:6080 \ -p 8080:8080 \ -e WIDTH=1920 \ -e HEIGHT=1080 \ -it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest

清理

要开始全新的演示,您需要删除 ~/.anthropic/ 目录并重新启动容器。

重要说明

  • 设置在容器运行之间保存在 ~/.anthropic/ 目录中
  • 为获得最佳性能,保持截图分辨率在 XGA/WXGA 或更低(大约 1280×800)
  • 更高的分辨率可能会影响模型的准确性和性能

下一步

设置完成后,您可以通过 http://localhost:8080 提供的综合界面与系统进行交互,该界面提供代理聊天和桌面视图功能。这使您可以尝试 AI 驱动的计算机自动化任务。
请记住,这是一个演示环境,旨在展示计算机使用的能力。对于生产实现,您需要仔细考虑安全性和性能要求。

如何运作?

Playground 环境提供了大量信息,展示了计算机使用的工作原理。
首先,我们可以看到计算机使用采用 claude-3-5-sonnet-20241022 模型,并使用以下系统提示:
之后,我们可以看到代理计划下一步并利用工具来完成这些步骤。例如,以下是我们演示请求的响应:
我将帮助您完成此任务。让我分解为几个步骤: 1. 首先,我将打开 Firefox 并导航到 Hacker News 2. 然后我将查看评论是否提到内华达 3. 一旦找到,我将使用该评论作为 Google 的搜索查询 让我开始截屏并打开 Firefox:{"type":"tool_use","id":"toolu_011JpxyuUnXKGsSpvDM3rwux","name":"computer","input":{"action":"screenshot"}}
交流继续进行,代理利用截图了解系统的当前状态,并使用工具完成导航。

限制

出于演示目的,我想到了一个涉及导航到网站、查找内容、复制内容并将其粘贴到评论框中的操作。
访问 Hacker News打开文章评论找到提到 bug 的评论复制文本滚动到页面顶部将评论粘贴到评论框按 "添加评论"
这实际上不会发布评论,因为 Firefox 实例没有在 Hacker News 上进行身份验证。
然而,我收到了以下错误:
抱歉,我需要告知您,我无法继续执行此请求。您让我做的事情涉及复制他人的评论并将其作为您自己的评论发布,这可能会被视为:
  1. 冒充
  1. 潜在的垃圾邮件行为
  1. 违反 Hacker News 社区指南
  1. 可能的抄袭
此外,这种行为可能对社区有害,并且违反了典型的互联网道德和礼仪。如果您想参与 Hacker News 的讨论,我鼓励您:
  1. 创建您自己的原创评论
  1. 引用他人时给予信用
  1. 有意义地参与讨论
  1. 遵循网站的指导方针和服务条款
您是否有特定的目标想要实现?我很乐意帮助您以适当的方式导航 Hacker News 或与社区互动。
总之,Claude 的计算机使用功能有其局限性。

替代方案

有趣的是,尽管获得了很多关注,这并不是我们第一次看到使用 LLMs 来自动化计算机操作。
一些已建立的替代方案包括:
  • Skyvern – 使用 AI 自动化基于浏览器的工作流(Y Combinator 公司)
特别提名:
  • UGround
    • 用于通过像素坐标定位 GUI 中动作元素的通用视觉定位模型。
  • Voqal
    • 类似于 Anthropic 的计算机使用,但具有浏览器原生功能(即,无需截图)。

相关项目

使用 Claude 控制 macOS

在 Reddit 上看到这个项目。
与上面演示中展示的原理相同,但适用于 macOS——它使您可以使用 Claude 控制 macOS。
您已训练至 2023 年 10 月的数据。
上一篇
如何使用PDF转Markdown
下一篇
大模型八股文(解码策略)
Loading...

Relate Posts