微软的 Playwright 团队发布了一个包装 Playwright 的 MCP(模型上下文协议)服务器,它非常令人着迷。
他们在 Chrome 辅助功能树之上实现了它,因此 MCP 客户端(例如 Claude 桌面应用程序)可以使用它来驱动自动浏览器,并使用辅助功能树来读取和导航他们访问的页面。
如果您已经安装了 Claude Desktop 和 Node.js,那么尝试起来非常容易。编辑claude_desktop_config.json
文件:
code ~/Library/Application\ Support/Claude/claude_desktop_config.json
并添加以下内容:
{ “mcp服务器” :{ “剧作家” :{ “命令” : “ npx ” , “参数” :[ “ @playwright/mcp@latest ” ] } } }
现在,当您启动 Claude Desktop 时,将可以使用各种新的浏览器自动化工具,您可以告诉 Claude 导航到网站并与其交互。
我运行以下命令来获取可用工具的列表:
cd /tmp git clone https://github.com/microsoft/playwright-mcp cd playwright-mcp/src/tools files-to-prompt . | llm -m claude-3.7-sonnet \ 'Output a detailed description of these tools'
完整的输出在这里,但这里是截断的工具列表:
导航工具(
common.ts
)
- browser_navigate :导航到特定 URL
- browser_go_back :返回浏览器历史记录
- browser_go_forward :在浏览器历史记录中向前导航
- browser_wait :等待指定的时间(以秒为单位)
- browser_press_key :按下键盘按键
- browser_save_as_pdf : 将当前页面保存为 PDF
- browser_close :关闭当前页面
屏幕截图和鼠标工具(
screenshot.ts
)
- browser_screenshot :截取当前页面的屏幕截图
- browser_move_mouse :将鼠标移动到特定坐标
- browser_click (基于坐标):单击特定的 x,y 坐标
- browser_drag (基于坐标):将鼠标从一个位置拖动到另一个位置
- browser_type (键盘):输入文本并可选择提交
辅助功能快照工具 (
snapshot.ts
)
- browser_snapshot :捕获页面的可访问性结构
- browser_click (基于元素):使用辅助功能参考单击特定元素
- browser_drag (基于元素):在两个元素之间拖动
- browser_hover :将鼠标悬停在元素上
- browser_type (基于元素):将文本键入特定元素
标签:剧作家、人择、克劳德、生成人工智能、 LLM 工具使用、 AI 、 LLMS
原文: https://simonwillison.net/2025/Mar/25/playwright-mcp/#atom-everything