type
status
date
slug
summary
tags
category
icon
password
Anthropic 最近发布了一项名为计算机使用的功能——这是一种通过屏幕观察、光标移动、按钮点击和文本输入来自动化计算机操作的 API。
我们发现,本地设置 Playground 演示非常简便。
示例代码
/
演示
首先,我想亲身体验一下使用该 API 的感觉。
在我搭建好 Playground 后,我尝试了以下指令:
访问 Hacker News,浏览每篇文章的评论,直到找到提到内华达的评论。然后复制该评论,转到 Google,并将评论用作搜索查询。
Claude 拒绝执行其他一些指令(详见限制部分)。
该演示的速度是原来的两倍
执行这个简单的指令耗时 1 分钟 39 秒,费用大约为 0.30 美元。
社区演示
已经有一些关于该 API 实际应用的演示。以下是一些示例:
我会随着更多示例的出现更新文章内容。
同时,您可以在几分钟内自己设置一个演示实例。
设置 Claude 电脑使用
- 配置您的 API 密钥 首先,将您的 Anthropic API 密钥设为环境变量:
export ANTHROPIC_API_KEY=%your_api_key%
- 启动容器 运行以下 Docker 命令以启动计算机使用演示:
docker run \ -e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY \ -v $HOME/.anthropic:/home/computeruse/.anthropic \ -p 5900:5900 \ -p 8501:8501 \ -p 6080:6080 \ -p 8080:8080 \ -it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest
- 访问界面
当容器启动后,您可以通过以下方式访问系统:
- 主界面(推荐):http://localhost:8080
- 仅限 Streamlit 界面:http://localhost:8501
- VNC 客户端连接:
vnc://localhost:5900
自定义屏幕分辨率
如果需要调整屏幕大小,可以设置
WIDTH
和 HEIGHT
环境变量:docker run \ -e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY \ -v $HOME/.anthropic:/home/computeruse/.anthropic \ -p 5900:5900 \ -p 8501:8501 \ -p 6080:6080 \ -p 8080:8080 \ -e WIDTH=1920 \ -e HEIGHT=1080 \ -it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest
清理
要开始全新的演示,您需要删除
~/.anthropic/
目录并重新启动容器。重要说明
- 设置在容器运行之间保存在
~/.anthropic/
目录中
- 为获得最佳性能,保持截图分辨率在 XGA/WXGA 或更低(大约 1280×800)
- 更高的分辨率可能会影响模型的准确性和性能
下一步
设置完成后,您可以通过 http://localhost:8080 提供的综合界面与系统进行交互,该界面提供代理聊天和桌面视图功能。这使您可以尝试 AI 驱动的计算机自动化任务。
请记住,这是一个演示环境,旨在展示计算机使用的能力。对于生产实现,您需要仔细考虑安全性和性能要求。
如何运作?
Playground 环境提供了大量信息,展示了计算机使用的工作原理。
首先,我们可以看到计算机使用采用
claude-3-5-sonnet-20241022
模型,并使用以下系统提示:之后,我们可以看到代理计划下一步并利用工具来完成这些步骤。例如,以下是我们演示请求的响应:
我将帮助您完成此任务。让我分解为几个步骤: 1. 首先,我将打开 Firefox 并导航到 Hacker News 2. 然后我将查看评论是否提到内华达 3. 一旦找到,我将使用该评论作为 Google 的搜索查询 让我开始截屏并打开 Firefox:{"type":"tool_use","id":"toolu_011JpxyuUnXKGsSpvDM3rwux","name":"computer","input":{"action":"screenshot"}}
交流继续进行,代理利用截图了解系统的当前状态,并使用工具完成导航。
限制
出于演示目的,我想到了一个涉及导航到网站、查找内容、复制内容并将其粘贴到评论框中的操作。
访问 Hacker News打开文章评论找到提到 bug 的评论复制文本滚动到页面顶部将评论粘贴到评论框按 "添加评论"
这实际上不会发布评论,因为 Firefox 实例没有在 Hacker News 上进行身份验证。
然而,我收到了以下错误:
抱歉,我需要告知您,我无法继续执行此请求。您让我做的事情涉及复制他人的评论并将其作为您自己的评论发布,这可能会被视为:
- 冒充
- 潜在的垃圾邮件行为
- 违反 Hacker News 社区指南
- 可能的抄袭
此外,这种行为可能对社区有害,并且违反了典型的互联网道德和礼仪。如果您想参与 Hacker News 的讨论,我鼓励您:
- 创建您自己的原创评论
- 引用他人时给予信用
- 有意义地参与讨论
- 遵循网站的指导方针和服务条款
您是否有特定的目标想要实现?我很乐意帮助您以适当的方式导航 Hacker News 或与社区互动。
总之,Claude 的计算机使用功能有其局限性。
替代方案
有趣的是,尽管获得了很多关注,这并不是我们第一次看到使用 LLMs 来自动化计算机操作。
一些已建立的替代方案包括:
- Skyvern – 使用 AI 自动化基于浏览器的工作流(Y Combinator 公司)
- LangChain Playwright Toolkit – 用于使用 LangChain 与 Playwright 交互的 Python 库
- Auto Playwright – 使用 LLMs 自动化 Playwright 测试
特别提名:
- UGround
- 用于通过像素坐标定位 GUI 中动作元素的通用视觉定位模型。
- Voqal
- 类似于 Anthropic 的计算机使用,但具有浏览器原生功能(即,无需截图)。
相关项目
使用 Claude 控制 macOS
在 Reddit 上看到这个项目。
与上面演示中展示的原理相同,但适用于 macOS——它使您可以使用 Claude 控制 macOS。
您已训练至 2023 年 10 月的数据。
Loading...