使用说明

核心用法

ClawTV 是一款将 AI 视觉能力与 Apple TV 遥控深度融合的智能家居工具。其核心工作流分为三层：最上层是 AI Agent 模式（`do` 命令），用户用自然语言描述目标（如"打开 Netflix 播放怪奇物语"），系统自动截取电视屏幕、调用 Claude Vision API 分析 UI 状态、决策下一步操作并执行遥控指令，形成"观察-思考-行动"的闭环，最多 20 步完成任务；中间层是 Plex 直连模式，识别到 Plex 相关指令时直接调用 Plex API 绕过视觉循环，实现秒级零成本播放；底层是 手动遥控模式（`cmd`/`/`type`/`/`launch`），提供传统遥控器按键、文本输入和应用启动能力，完全零 API 成本。

截图支持三种技术栈：QuickTime AirPlay 镜像（最快 0.6 秒，但 DRM 应用会强制断开）、Xcode 开发者截图（兼容 DRM，约 2.5 秒）、以及配套的 Lookout tvOS 应用（100 毫秒级，但仅限自身 UI）。系统通过自动降级策略平衡速度与兼容性。

显著优点

自然语言交互革命：彻底摆脱传统遥控器的方向键迷宫，老人儿童均可直接表达意图。视觉推理能自适应不同应用的 UI 变化，无需维护脆弱的 XPath 或坐标脚本。

成本智能优化：Plex 目标自动识别并走直连通道，仅 2 次 API 调用；视觉模式采用 Haiku 4.5 模型处理常规步骤，遇困自动升级 Sonnet 4.5；滑动窗口仅保留最近 2 张截图、JPEG 压缩至 800px 质量 50、系统提示缓存复用，综合降低 70% 以上 token 消耗。

隐私可控设计：手动命令完全不触碰外部 API，敏感操作可全程本地执行；截图本地留存便于审计；依赖均为成熟开源库（pyatv、plexapi），无黑箱组件。

生态开放：支持任意 tvOS 应用（通过 bundle ID 启动），Plex 集成兼容自建服务器与远程访问，架构上预留了 Lookout 等第三方截图后端扩展接口。

潜在缺点与局限性

DRM 内容壁垒：Netflix、Disney+、YouTube 等启用 HDCP 保护的应用会强制终止 QuickTime 镜像，导致视觉模式失效。虽可降级至 Xcode 方法，但 2.5 秒延迟显著降低 AI 决策流畅度，且需保持 Xcode 窗口常驻内存。

成本不可控风险：do 命令的循环机制理论上可能消耗全部 20 步（约 $0.10-0.20），若遇网络卡顿、UI 异常或目标未找到，费用产生但任务失败。虽有预算建议，但无硬性熔断机制。

截图隐私悖论：视觉模式的核心价值依赖屏幕内容上传，即使用户信任 Anthropic，截图中仍可能暴露观看历史、搜索偏好、甚至账户信息。本地存储的截图历史若未定期清理，亦构成隐私隐患。

macOS 生态锁定：依赖 QuickTime、AppleScript、Xcode 等苹果专属技术栈，Windows/Linux 用户无法使用；Apple TV 需与 Mac 处于同一局域网，无法远程控制。

凭证管理粗放：Plex Token 与设备配对凭证以明文 JSON 存储，虽受 Unix 权限保护，但无系统钥匙链集成，恶意进程以用户身份运行即可读取。

适合的目标群体

Plex 自建媒体库用户：直连模式提供极致性价比的语音控制体验
智能家居极客：希望将 Apple TV 纳入 HomeKit/自动化工作流的技术爱好者
无障碍需求家庭：视力或操作不便成员可通过自然语言操控电视
开发与测试人员：需批量验证 tvOS 应用 UI 的自动化测试场景
隐私敏感型用户：愿意牺牲 AI 便利性，使用零成本手动命令完成核心操作

使用风险

性能依赖项：QuickTime 镜像会劫持电视音频至 Mac，且显示红色录制边框，必须通过 disconnect 命令恢复，遗忘将导致体验断裂。DRM 应用的自动降级可能因 Xcode 窗口未就绪而失败。

API 依赖稳定性：Anthropic 服务中断或速率限制将直接瘫痪 AI 模式，虽可回退手动命令，但丧失核心卖点。Claude 模型的视觉理解错误可能导致循环陷入死胡同。

网络拓扑敏感：Apple TV 休眠、WiFi 切换、防火墙规则变化均会中断 Companion 协议连接，需重新执行扫描-配对流程。

截图存储膨胀：高频使用下 ~/.clawtv/screenshots// 可能积累大量 PNG 文件，长期未清理将占用磁盘空间并增加隐私暴露面。

安全解读

ClawTV 综合评估

核心用法

ClawTV 是一款基于 AI 视觉和远程控制协议的 Apple TV 自动化工具，提供三种操作模式：

1. AI Agent 模式（`do`） — 核心卖点。通过自然语言指令（如"打开 Netflix 搜索 Stranger Things"），ClawTV 自动循环执行「截图→Claude 视觉分析→决策→发送遥控器指令」的闭环，直至任务完成。内置多项成本优化：Plex 目标自动走直连 API 绕过视觉循环；滑动窗口仅保留最近 2 张截图；JPEG 压缩至 800px q50；Haiku 4.5 自动降级；系统提示缓存等。

2. Plex 直连模式（`plex`） — 零视觉成本。通过 Plex API 直接控制 Apple TV 上的 Plex 客户端，支持精确到集数的播放，绕过所有截图和 AI 分析。

3. 手动命令模式（`cmd`/`type`/`launch`） — 零 API 成本。直接发送遥控器指令、文本输入或启动指定 bundle ID 的 App，适合隐私敏感场景。

截图支持 QuickTime AirPlay 镜像（~0.6s，默认）、Xcode 开发者截图（~2.5s，支持 DRM）和 Lookout tvOS App（~0.1s，仅限自身 UI）。

显著优点

自然语言交互门槛低：无需学习遥控器按键映射，直接用日常用语描述目标。
成本优化策略成熟：Plex 自动检测、滑动窗口、图像压缩、模型降级、缓存控制等多管齐下，单次任务成本可控制在 $0.02-0.20。
架构简洁依赖可信：单文件 CLI 设计，核心依赖 pyatv、anthropic、plexapi 均为成熟开源项目，无供应链风险。
透明度极高：文档详尽披露数据收集范围、API 成本结构、DRM 限制、凭证存储方式，并提供明确的隐私/成本优化建议（手动命令模式）。

潜在缺点与局限性

视觉模式成本不可忽略：复杂导航任务可能消耗 20 步（~$0.20），且循环上限固定为 20 步，极端场景可能任务失败。
DRM 内容兼容性差：Netflix、Disney+、HBO Max 等强制 HDCP，会杀死 QuickTime 镜像，必须回退至缓慢的 Xcode 模式或放弃视觉自动化。
macOS 生态锁定：依赖 AppleScript、QuickTime、Xcode，Windows/Linux 用户无法使用。
截图包含敏感信息风险：用户可能未意识到搜索历史、观看记录、账户信息会被截图并外传。

适合人群

Plex 重度用户：直连模式体验最佳，秒开指定剧集。
Apple TV 自动化爱好者：愿意为自然语言控制支付少量 API 成本。
技术接受度高的 macOS 用户：能接受命令行工具、环境变量配置、JSON 手动编辑。

常规风险

API 费用失控：do 命令自动循环，若遇异常 UI 可能消耗全部 20 步才终止。建议设置 Anthropic 账户消费上限。
隐私泄露：电视屏幕内容（含可能敏感信息）传输至 Anthropic 服务器，需信任其数据保留政策。
凭证泄露：config.json 明文存储 Plex Token 和 Apple TV 配对凭证，用户级恶意进程可读取，系统入侵后暴露风险高。
供应链成本波动：Anthropic 模型定价变更直接影响使用成本。

smart-home media-control automation ai-vision productivity content-media

clawtv 内容

手动下载zip · 23.8 kB

clawtv.pytext/plain

请选择文件