核心用法
Desktop Computer Automation 是一个基于 Midscene.js 的视觉驱动桌面自动化技能,支持 macOS、Windows 和 Linux 三大平台。其核心工作原理是通过屏幕截图捕获当前桌面状态,利用多模态大语言模型(MLLM)进行视觉理解和 grounding,从而识别屏幕上的UI元素并执行相应的鼠标点击、键盘输入、拖拽等操作。
使用流程遵循严格的同步模式:
1. 连接会话 (connect) — 建立与桌面的通信通道
2. 健康检查 — 验证截图和鼠标移动功能正常
3. 应用前置 — 确保目标应用已在屏幕可视区域
4. 执行操作 (act) — 用自然语言描述复杂任务,由AI自主拆解执行
5. 断开连接 (disconnect) — 清理会话
关键命令包括:截图 (take_screenshot)、执行动作 (act --prompt)、列出显示器 (list_displays) 等。act 命令支持两种指令模式:具体指令(如"点击左上角红色关闭按钮")和目标驱动指令(如"用Chrome搜索上海天气并返回结果")。
显著优点
- 零侵入性:无需应用提供API、DOM结构或无障碍标签,任何可见界面均可操作
- 跨平台统一:同一套命令适用于 macOS/Windows/Linux
- 自然语言交互:用人类语言描述任务,降低自动化编写门槛
- 复杂任务自主规划:
act命令内置多步推理,自动处理点击、输入、滚动、等待等子操作 - 多显示器支持:可指定
displayId切换不同屏幕
潜在缺点与局限性
- 强依赖视觉模型:必须使用 Gemini-3、Qwen3-VL、Doubao Seed 1.6 等具备强 grounding 能力的多模态模型,配置门槛较高
- 同步执行强制要求:每个命令必须串行等待完成,无法并行,复杂任务耗时较长(单次命令约1分钟)
- 截图-分析-行动循环开销:每一步都需要AI推理,高频操作场景效率受限
- 视觉遮挡敏感:窗口重叠、弹窗拦截、屏幕保护都会导致失败
- 环境配置复杂:需正确设置 API密钥、模型名称、BASE_URL、FAMILY 四个环境变量
适合人群
- 需要自动化遗留系统或无API老旧软件的开发者
- 跨平台RPA(机器人流程自动化)需求场景
- 快速原型验证、UI测试脚本编写人员
- 不愿学习复杂自动化框架(如Selenium、PyAutoGUI)的普通用户
常规风险
- 隐私泄露风险:所有屏幕内容发送至云端多模态模型处理,敏感信息可能被记录
- 误操作风险:AI可能误判视觉元素位置,导致点击错误按钮或输入至错误区域
- 成本累积:每次截图和推理都消耗API token,高频使用成本较高
- 权限要求:macOS需授予终端辅助功能(Accessibility)权限,存在安全边界突破