Midscene Automations Skills for Computer

🖥️ 自然语言操控你的电脑

automation榜 #16

基于 Midscene 的 AI 桌面自动化工具,支持自然语言控制 macOS/Windows/Linux,通过视觉理解实现点击、输入、快捷键等操作。

收藏
12k
安装
2.7k
版本
1.0.1
CLS 安全性认证2026-06-04
点击查看完整报告 >

使用说明

核心用法

Desktop Computer Automation 是一个跨平台桌面自动化解决方案,基于 Midscene 框架实现。用户通过自然语言指令即可控制计算机,无需编写传统自动化脚本。核心工作流遵循「连接→截图→分析→执行→验证」的闭环模式:首先建立会话连接,然后截取屏幕获取当前状态,AI 分析截图后决定下一步操作,执行具体动作(点击、输入、拖拽等),再次截图验证结果,循环直至任务完成。

主要功能模块

1. 连接管理connect 建立会话,list_displays 列出显示器,disconnect 结束会话
2. 屏幕感知take_screenshot 捕获屏幕,为 AI 决策提供视觉输入

3. 交互动作:支持 Tap(单击)、DoubleClick(双击)、RightClick(右键)、Input(文本输入)、Scroll(滚动)、KeyboardPress(快捷键)、DragAndDrop(拖拽)等基础操作

4. 自然语言执行act 命令将多步骤操作封装为单条指令,特别适用于 Spotlight、开始菜单等瞬态 UI

显著优点

  • 自然语言驱动:无需学习特定语法,用日常语言描述操作目标,降低自动化门槛
  • 视觉理解能力:基于 AI 视觉模型识别 UI 元素,相比坐标定位更具适应性
  • 跨平台支持:一套工具覆盖 macOS、Windows、Linux 三大桌面系统
  • 瞬态 UI 处理act 命令在单一进程内执行多步操作,避免焦点丢失导致的菜单/弹窗消失问题
  • 状态验证机制:强制性的截图验证循环确保每一步操作可追溯、可调试

潜在缺点与局限性

  • 环境依赖重:需要配置 API Key(MIDSCENE_MODEL_API_KEY),依赖外部 AI 模型服务
  • 权限门槛:macOS 需授予终端辅助功能权限,增加初次配置复杂度
  • 执行效率:每步操作需等待截图→分析→执行→再截图,延迟较高,不适合高频实时场景
  • 视觉识别局限:复杂 UI、动态加载内容、重叠窗口可能导致元素定位失败
  • 成本考量:依赖 AI 模型 API 调用,持续使用会产生 token 消耗
  • 单进程限制:CLI 命令无状态,必须通过 act 处理瞬态 UI,增加心智负担

适合人群

  • 需要快速实现桌面自动化的开发者或技术爱好者
  • 不想深入学习 AppleScript/AutoHotkey/Shell 脚本的用户
  • 跨平台自动化需求者(同时维护 Mac 和 Windows 环境)
  • 原型验证、UI 测试、重复性办公任务自动化的场景

常规风险

  • 隐私暴露:屏幕截图上传至 AI 模型服务,敏感信息可能泄露
  • 误操作风险:AI 理解偏差可能导致点击错误元素,建议在非关键环境测试
  • API 依赖:服务中断、模型变更、额度耗尽将直接导致工具失效
  • 权限安全:辅助功能权限授予终端应用存在潜在滥用风险,需确认来源可信

安全解读

核心用法

Desktop Computer Automation 是一个纯文档型技能,通过封装 Midscene 官方 CLI 工具 (@midscene/computer) 实现跨平台桌面自动化。用户以自然语言描述操作目标,AI 代理通过截图-分析-执行的闭环完成复杂任务。

典型工作流:
1. connect 建立桌面会话

2. take_screenshot 获取当前屏幕状态

3. 分析截图内容,决定下一步操作

4. 执行具体动作(Tap/Input/KeyboardPress/Scroll/DragAndDrop 等)

5. 再次截图验证结果,循环直至任务完成

6. disconnect 结束会话

关键设计: 对于 Spotlight、右键菜单、下拉菜单等瞬态 UI,必须使用 act 命令在单进程内完成多步操作,避免焦点丢失导致菜单消失。

显著优点

  • 跨平台支持:macOS、Windows、Linux 全平台兼容
  • 视觉驱动:基于真实屏幕截图进行元素定位,不受 DOM 或 API 限制
  • 自然语言交互:无需学习特定脚本语法,用日常语言描述目标
  • 灵活精准:支持键盘快捷键、拖拽、滚轮等复杂交互
  • 来源可信:由 ByteDance web-infra-dev 团队维护,MIT 协议开源

潜在缺点与局限性

  • 延迟较高:每次操作需等待截图传输和 AI 分析,不适合高频实时场景
  • 成本依赖:需配置 LLM API Key(支持 OpenAI、Anthropic、Gemini 等),产生 token 费用
  • 权限门槛:macOS 需授予终端「辅助功能」权限,初次配置较繁琐
  • 环境敏感:屏幕分辨率、主题、语言环境变化可能影响元素识别稳定性
  • 无状态设计:CLI 命令间无状态保持,必须遵循截图-分析的显式循环

适合人群

  • 自动化测试工程师:需要跨应用、跨平台的端到端 UI 测试
  • 效率极客:希望用自然语言批量处理重复性桌面操作
  • 无障碍辅助需求用户:通过语音或文字指令控制计算机
  • 开发者/运维:快速完成环境配置、文件管理、多窗口协作等任务

常规风险

  • API Key 泄露风险.env 文件若未加入 .gitignore 可能误提交至仓库
  • 误操作风险:AI 可能误判屏幕元素,建议在关键操作前手动确认
  • 供应链风险:依赖 @midscene/computer npm 包,需通过官方渠道安装并定期审计
  • 隐私合规:截图可能包含敏感信息,需确保符合 GDPR 等数据最小化原则

安全评级为 S(优秀),无危险代码、无敏感信息硬编码、无恶意依赖。

Midscene Automations Skills for Computer 内容

手动下载zip · 3.3 kB
SKILL.mdtext/markdown
请选择文件