Midscene Automations Skills for Computer

🖥️ 自然语言操控你的电脑屏幕

automation榜 #16

基于Midscene的视觉驱动桌面自动化工具,通过自然语言控制跨平台桌面操作,无需DOM或无障碍标签,完全依赖屏幕截图进行UI交互。

收藏
11.7k
安装
2.7k
版本
1.0.2
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

Desktop Computer Automation 是一个基于 Midscene.js 的视觉驱动桌面自动化技能,支持 macOS、Windows 和 Linux 三大平台。其核心工作原理是通过屏幕截图捕获当前桌面状态,利用多模态大语言模型(MLLM)进行视觉理解和 grounding,从而识别屏幕上的UI元素并执行相应的鼠标点击、键盘输入、拖拽等操作。

使用流程遵循严格的同步模式:
1. 连接会话 (connect) — 建立与桌面的通信通道

2. 健康检查 — 验证截图和鼠标移动功能正常

3. 应用前置 — 确保目标应用已在屏幕可视区域

4. 执行操作 (act) — 用自然语言描述复杂任务,由AI自主拆解执行

5. 断开连接 (disconnect) — 清理会话

关键命令包括:截图 (take_screenshot)、执行动作 (act --prompt)、列出显示器 (list_displays) 等。act 命令支持两种指令模式:具体指令(如"点击左上角红色关闭按钮")和目标驱动指令(如"用Chrome搜索上海天气并返回结果")。

显著优点

  • 零侵入性:无需应用提供API、DOM结构或无障碍标签,任何可见界面均可操作
  • 跨平台统一:同一套命令适用于 macOS/Windows/Linux
  • 自然语言交互:用人类语言描述任务,降低自动化编写门槛
  • 复杂任务自主规划act 命令内置多步推理,自动处理点击、输入、滚动、等待等子操作
  • 多显示器支持:可指定 displayId 切换不同屏幕

潜在缺点与局限性

  • 强依赖视觉模型:必须使用 Gemini-3、Qwen3-VL、Doubao Seed 1.6 等具备强 grounding 能力的多模态模型,配置门槛较高
  • 同步执行强制要求:每个命令必须串行等待完成,无法并行,复杂任务耗时较长(单次命令约1分钟)
  • 截图-分析-行动循环开销:每一步都需要AI推理,高频操作场景效率受限
  • 视觉遮挡敏感:窗口重叠、弹窗拦截、屏幕保护都会导致失败
  • 环境配置复杂:需正确设置 API密钥、模型名称、BASE_URL、FAMILY 四个环境变量

适合人群

  • 需要自动化遗留系统或无API老旧软件的开发者
  • 跨平台RPA(机器人流程自动化)需求场景
  • 快速原型验证、UI测试脚本编写人员
  • 不愿学习复杂自动化框架(如Selenium、PyAutoGUI)的普通用户

常规风险

  • 隐私泄露风险:所有屏幕内容发送至云端多模态模型处理,敏感信息可能被记录
  • 误操作风险:AI可能误判视觉元素位置,导致点击错误按钮或输入至错误区域
  • 成本累积:每次截图和推理都消耗API token,高频使用成本较高
  • 权限要求:macOS需授予终端辅助功能(Accessibility)权限,存在安全边界突破

Midscene Automations Skills for Computer 内容

手动下载zip · 4.2 kB
SKILL.mdtext/markdown
请选择文件