核心用法
macOS Control Skill 是一个专为 macOS(Darwin)设计的高保真自动化桥接工具,使 AI Agent 能够感知桌面状态并执行精确的鼠标和键盘交互。
主要功能组件:
- see 工具:调用
vision_wrapper.sh使用原生screencapture -x捕获屏幕,输出 PNG 至/tmp/claw_view.png,用于 UI 元素识别、窗口定位和应用状态分析 - click 工具:通过
cliclick_wrapper.sh执行/opt/homebrew/bin/cliclick,支持: - 鼠标点击:
c:x,y(左键)、右键操作 - 鼠标移动:
m:x,y - 键盘输入:
t:text(键入文本) - 等待延迟:
w:毫秒
典型应用场景:自动化测试、RPA(机器人流程自动化)、无障碍辅助操作、批量 GUI 任务处理。
显著优点
1. 原生集成:基于 macOS 系统级工具 screencapture 和开源 cliclick,无需复杂驱动
2. 低延迟:直接调用编译型二进制,响应速度优于 AppleScript/JavaScript 方案
3. 灵活语法:支持 cliclick 完整指令集,可组合复杂操作序列
4. 静默运行:截图使用 -x 静默模式,无视觉干扰
潜在局限与风险
| 维度 | 说明 |
|------|------|
| **权限依赖** | 需授予「辅助功能」「屏幕录制」等系统权限,首次配置需人工确认 |
| **分辨率敏感** | 坐标基于绝对像素,Retina/多显示器环境下需换算或校准 |
| **Homebrew 依赖** | 强制依赖外部包管理器,企业锁机环境可能受限 |
| **无元素定位** | 仅支持坐标级操作,不具备 Accessibility API 的元素级语义识别(如「点击名为'保存'的按钮」) |
| **并发风险** | 无内置队列机制,高频调用可能导致事件丢失或顺序错乱 |
适合人群
- 开发者/QA 工程师:构建 macOS 端自动化测试流水线
- 高级用户:创建个人工作流自动化(配合 Shortcuts/Alfred)
- AI Agent 研究者:需要物理环境交互的桌面智能体实验
常规风险
- 权限提升攻击面:辅助功能权限是 macOS 的高危权限,恶意调用可能导致凭证窃取或系统操控
- 屏幕隐私泄露:截图功能可捕获敏感信息,需确保
/tmp/claw_view.png的访问控制 - 误操作风险:坐标错误可能导致非预期点击,建议操作前 always 执行
see确认目标位置 - 供应链风险:
cliclick为第三方开源工具,需校验 Homebrew 源的完整性