使用说明

核心用法

Desktop Computer Automation 是一个基于 Midscene.js 的视觉驱动桌面自动化技能，支持 macOS、Windows 和 Linux 三大平台。其核心工作原理是通过屏幕截图捕获当前桌面状态，利用多模态大语言模型（MLLM）进行视觉理解和 grounding，从而识别屏幕上的UI元素并执行相应的鼠标点击、键盘输入、拖拽等操作。

使用流程遵循严格的同步模式：
1. 连接会话 (connect) — 建立与桌面的通信通道
2. 健康检查 — 验证截图和鼠标移动功能正常
3. 应用前置 — 确保目标应用已在屏幕可视区域
4. 执行操作 (act) — 用自然语言描述复杂任务，由AI自主拆解执行
5. 断开连接 (disconnect) — 清理会话

关键命令包括：截图 (take_screenshot)、执行动作 (act --prompt)、列出显示器 (list_displays) 等。act 命令支持两种指令模式：具体指令（如"点击左上角红色关闭按钮"）和目标驱动指令（如"用Chrome搜索上海天气并返回结果"）。

显著优点

零侵入性：无需应用提供API、DOM结构或无障碍标签，任何可见界面均可操作
跨平台统一：同一套命令适用于 macOS/Windows/Linux
自然语言交互：用人类语言描述任务，降低自动化编写门槛
复杂任务自主规划：act 命令内置多步推理，自动处理点击、输入、滚动、等待等子操作
多显示器支持：可指定 displayId 切换不同屏幕

潜在缺点与局限性

强依赖视觉模型：必须使用 Gemini-3、Qwen3-VL、Doubao Seed 1.6 等具备强 grounding 能力的多模态模型，配置门槛较高
同步执行强制要求：每个命令必须串行等待完成，无法并行，复杂任务耗时较长（单次命令约1分钟）
截图-分析-行动循环开销：每一步都需要AI推理，高频操作场景效率受限
视觉遮挡敏感：窗口重叠、弹窗拦截、屏幕保护都会导致失败
环境配置复杂：需正确设置 API密钥、模型名称、BASE_URL、FAMILY 四个环境变量

适合人群

需要自动化遗留系统或无API老旧软件的开发者
跨平台RPA（机器人流程自动化）需求场景
快速原型验证、UI测试脚本编写人员
不愿学习复杂自动化框架（如Selenium、PyAutoGUI）的普通用户

常规风险

隐私泄露风险：所有屏幕内容发送至云端多模态模型处理，敏感信息可能被记录
误操作风险：AI可能误判视觉元素位置，导致点击错误按钮或输入至错误区域
成本累积：每次截图和推理都消耗API token，高频使用成本较高
权限要求：macOS需授予终端辅助功能（Accessibility）权限，存在安全边界突破

desktop-automation computer-vision rpa cross-platform midscene natural-language-control screenshot-based mllm gui-automation macos windows linux

Midscene Automations Skills for Computer 内容

手动下载zip · 4.2 kB

SKILL.mdtext/markdown

请选择文件