核心用法
TuriX-Mac 是一款专为 macOS 设计的计算机使用代理(CUA),通过视觉感知和多模型架构实现桌面自动化。用户以自然语言描述任务,Agent 自动完成打开应用、点击按钮、填写表单、网页浏览等 GUI 操作。
典型使用场景:
- 跨应用工作流:「打开邮件找到最新发票,上传到公司门户」
- 无 API 应用控制:操作 Spotify、System Settings 等无 CLI 的工具
- 复杂网页任务:GitHub 搜索、Star 仓库、表单填写
执行方式:
./run_turix.sh "具体任务描述"
支持断点续传(--resume)、后台运行(--background)及强制停止快捷键(Cmd+Shift+2)。
显著优点
| 优势 | 说明 |
|------|------|
| **零 API 依赖** | 纯视觉驱动,适用于任何 macOS 应用 |
| **多模型架构** | Brain(规划)、Actor(执行)、Planner(任务分解)、Memory(上下文)协同 |
| **Skills 系统** | Markdown 格式的领域手册,提升特定任务稳定性 |
| **断点续传** | 支持 `agent_id` 稳定化,中断后可恢复 |
| **详细可观测性** | 每步生成 Brain/Actor LLM 交互日志、截图、执行记录 |
潜在缺点与局限性
1. 权限门槛高:需屏幕录制、辅助功能、键盘监听等多重系统授权
2. 首次启动慢:模型加载需 1-2 分钟
3. 坐标敏感:视觉定位受分辨率、UI 缩放影响
4. 无沙箱隔离:直接操作真实桌面,误操作风险不可逆
5. 英文生态:部分日志和模型交互以英文为主
6. 复杂任务易超时:默认 100 步限制,长流程可能中断
适合人群
- 开发者:需自动化无 API 的 macOS 应用测试
- 运维人员:批量执行跨系统配置任务
- 高级用户:构建个人自动化工作流
- 不适合:无技术背景用户(权限配置复杂)、高安全敏感场景
常规风险
| 风险类型 | 说明 |
|----------|------|
| **隐私泄露** | 屏幕录制实时上传至 LLM,敏感信息可能被记录 |
| **数据误删** | 自然语言歧义可能导致意外文件操作 |
| **账号安全** | 自动登录、表单填写可能泄露凭据 |
| **系统稳定性** | 高频 UI 操作可能触发应用崩溃或系统卡顿 |
| **成本不可控** | 多模型调用 + 长任务 = 较高的 token 消耗 |
建议措施: 在专用测试机运行、避免处理敏感数据、设置 max_steps 上限、定期检查 .turix_tmp/logging.log。