核心用法
Desktop Computer Automation 是一个跨平台桌面自动化解决方案,基于 Midscene 框架实现。用户通过自然语言指令即可控制计算机,无需编写传统自动化脚本。核心工作流遵循「连接→截图→分析→执行→验证」的闭环模式:首先建立会话连接,然后截取屏幕获取当前状态,AI 分析截图后决定下一步操作,执行具体动作(点击、输入、拖拽等),再次截图验证结果,循环直至任务完成。
主要功能模块
1. 连接管理:connect 建立会话,list_displays 列出显示器,disconnect 结束会话
2. 屏幕感知:take_screenshot 捕获屏幕,为 AI 决策提供视觉输入
3. 交互动作:支持 Tap(单击)、DoubleClick(双击)、RightClick(右键)、Input(文本输入)、Scroll(滚动)、KeyboardPress(快捷键)、DragAndDrop(拖拽)等基础操作
4. 自然语言执行:act 命令将多步骤操作封装为单条指令,特别适用于 Spotlight、开始菜单等瞬态 UI
显著优点
- 自然语言驱动:无需学习特定语法,用日常语言描述操作目标,降低自动化门槛
- 视觉理解能力:基于 AI 视觉模型识别 UI 元素,相比坐标定位更具适应性
- 跨平台支持:一套工具覆盖 macOS、Windows、Linux 三大桌面系统
- 瞬态 UI 处理:
act命令在单一进程内执行多步操作,避免焦点丢失导致的菜单/弹窗消失问题 - 状态验证机制:强制性的截图验证循环确保每一步操作可追溯、可调试
潜在缺点与局限性
- 环境依赖重:需要配置 API Key(MIDSCENE_MODEL_API_KEY),依赖外部 AI 模型服务
- 权限门槛:macOS 需授予终端辅助功能权限,增加初次配置复杂度
- 执行效率:每步操作需等待截图→分析→执行→再截图,延迟较高,不适合高频实时场景
- 视觉识别局限:复杂 UI、动态加载内容、重叠窗口可能导致元素定位失败
- 成本考量:依赖 AI 模型 API 调用,持续使用会产生 token 消耗
- 单进程限制:CLI 命令无状态,必须通过
act处理瞬态 UI,增加心智负担
适合人群
- 需要快速实现桌面自动化的开发者或技术爱好者
- 不想深入学习 AppleScript/AutoHotkey/Shell 脚本的用户
- 跨平台自动化需求者(同时维护 Mac 和 Windows 环境)
- 原型验证、UI 测试、重复性办公任务自动化的场景
常规风险
- 隐私暴露:屏幕截图上传至 AI 模型服务,敏感信息可能泄露
- 误操作风险:AI 理解偏差可能导致点击错误元素,建议在非关键环境测试
- API 依赖:服务中断、模型变更、额度耗尽将直接导致工具失效
- 权限安全:辅助功能权限授予终端应用存在潜在滥用风险,需确认来源可信