clawtv

📺 AI视觉驱动的Apple TV智能遥控

基于Claude视觉的Apple TV智能遥控器,支持自然语言控制与Plex直连,实现零成本手动命令与AI自主导航双模式。

收藏
8.7k
安装
2.7k
版本
v1.0.2
CLS 安全性认证2026-05-14
点击查看完整报告 >

使用说明

核心用法

ClawTV 是一款将 AI 视觉能力与 Apple TV 遥控深度融合的智能家居工具。其核心工作流分为三层:最上层是 AI Agent 模式(`do` 命令),用户用自然语言描述目标(如"打开 Netflix 播放怪奇物语"),系统自动截取电视屏幕、调用 Claude Vision API 分析 UI 状态、决策下一步操作并执行遥控指令,形成"观察-思考-行动"的闭环,最多 20 步完成任务;中间层是 Plex 直连模式,识别到 Plex 相关指令时直接调用 Plex API 绕过视觉循环,实现秒级零成本播放;底层是 手动遥控模式(`cmd`/`/`type`/`/`launch`),提供传统遥控器按键、文本输入和应用启动能力,完全零 API 成本。

截图支持三种技术栈:QuickTime AirPlay 镜像(最快 0.6 秒,但 DRM 应用会强制断开)、Xcode 开发者截图(兼容 DRM,约 2.5 秒)、以及配套的 Lookout tvOS 应用(100 毫秒级,但仅限自身 UI)。系统通过自动降级策略平衡速度与兼容性。

显著优点

自然语言交互革命:彻底摆脱传统遥控器的方向键迷宫,老人儿童均可直接表达意图。视觉推理能自适应不同应用的 UI 变化,无需维护脆弱的 XPath 或坐标脚本。

成本智能优化:Plex 目标自动识别并走直连通道,仅 2 次 API 调用;视觉模式采用 Haiku 4.5 模型处理常规步骤,遇困自动升级 Sonnet 4.5;滑动窗口仅保留最近 2 张截图、JPEG 压缩至 800px 质量 50、系统提示缓存复用,综合降低 70% 以上 token 消耗。

隐私可控设计:手动命令完全不触碰外部 API,敏感操作可全程本地执行;截图本地留存便于审计;依赖均为成熟开源库(pyatv、plexapi),无黑箱组件。

生态开放:支持任意 tvOS 应用(通过 bundle ID 启动),Plex 集成兼容自建服务器与远程访问,架构上预留了 Lookout 等第三方截图后端扩展接口。

潜在缺点与局限性

DRM 内容壁垒:Netflix、Disney+、YouTube 等启用 HDCP 保护的应用会强制终止 QuickTime 镜像,导致视觉模式失效。虽可降级至 Xcode 方法,但 2.5 秒延迟显著降低 AI 决策流畅度,且需保持 Xcode 窗口常驻内存。

成本不可控风险do 命令的循环机制理论上可能消耗全部 20 步(约 $0.10-0.20),若遇网络卡顿、UI 异常或目标未找到,费用产生但任务失败。虽有预算建议,但无硬性熔断机制。

截图隐私悖论:视觉模式的核心价值依赖屏幕内容上传,即使用户信任 Anthropic,截图中仍可能暴露观看历史、搜索偏好、甚至账户信息。本地存储的截图历史若未定期清理,亦构成隐私隐患。

macOS 生态锁定:依赖 QuickTime、AppleScript、Xcode 等苹果专属技术栈,Windows/Linux 用户无法使用;Apple TV 需与 Mac 处于同一局域网,无法远程控制。

凭证管理粗放:Plex Token 与设备配对凭证以明文 JSON 存储,虽受 Unix 权限保护,但无系统钥匙链集成,恶意进程以用户身份运行即可读取。

适合的目标群体

  • Plex 自建媒体库用户:直连模式提供极致性价比的语音控制体验
  • 智能家居极客:希望将 Apple TV 纳入 HomeKit/自动化工作流的技术爱好者
  • 无障碍需求家庭:视力或操作不便成员可通过自然语言操控电视
  • 开发与测试人员:需批量验证 tvOS 应用 UI 的自动化测试场景
  • 隐私敏感型用户:愿意牺牲 AI 便利性,使用零成本手动命令完成核心操作

使用风险

性能依赖项:QuickTime 镜像会劫持电视音频至 Mac,且显示红色录制边框,必须通过 disconnect 命令恢复,遗忘将导致体验断裂。DRM 应用的自动降级可能因 Xcode 窗口未就绪而失败。

API 依赖稳定性:Anthropic 服务中断或速率限制将直接瘫痪 AI 模式,虽可回退手动命令,但丧失核心卖点。Claude 模型的视觉理解错误可能导致循环陷入死胡同。

网络拓扑敏感:Apple TV 休眠、WiFi 切换、防火墙规则变化均会中断 Companion 协议连接,需重新执行扫描-配对流程。

截图存储膨胀:高频使用下 ~/.clawtv/screenshots// 可能积累大量 PNG 文件,长期未清理将占用磁盘空间并增加隐私暴露面。

安全解读

ClawTV 综合评估

核心用法

ClawTV 是一款基于 AI 视觉和远程控制协议的 Apple TV 自动化工具,提供三种操作模式:

1. AI Agent 模式(`do`) — 核心卖点。通过自然语言指令(如"打开 Netflix 搜索 Stranger Things"),ClawTV 自动循环执行「截图→Claude 视觉分析→决策→发送遥控器指令」的闭环,直至任务完成。内置多项成本优化:Plex 目标自动走直连 API 绕过视觉循环;滑动窗口仅保留最近 2 张截图;JPEG 压缩至 800px q50;Haiku 4.5 自动降级;系统提示缓存等。

2. Plex 直连模式(`plex`) — 零视觉成本。通过 Plex API 直接控制 Apple TV 上的 Plex 客户端,支持精确到集数的播放,绕过所有截图和 AI 分析。

3. 手动命令模式(`cmd`/`type`/`launch`) — 零 API 成本。直接发送遥控器指令、文本输入或启动指定 bundle ID 的 App,适合隐私敏感场景。

截图支持 QuickTime AirPlay 镜像(~0.6s,默认)、Xcode 开发者截图(~2.5s,支持 DRM)和 Lookout tvOS App(~0.1s,仅限自身 UI)。

显著优点

  • 自然语言交互门槛低:无需学习遥控器按键映射,直接用日常用语描述目标。
  • 成本优化策略成熟:Plex 自动检测、滑动窗口、图像压缩、模型降级、缓存控制等多管齐下,单次任务成本可控制在 $0.02-0.20。
  • 架构简洁依赖可信:单文件 CLI 设计,核心依赖 pyatv、anthropic、plexapi 均为成熟开源项目,无供应链风险。
  • 透明度极高:文档详尽披露数据收集范围、API 成本结构、DRM 限制、凭证存储方式,并提供明确的隐私/成本优化建议(手动命令模式)。

潜在缺点与局限性

  • 视觉模式成本不可忽略:复杂导航任务可能消耗 20 步(~$0.20),且循环上限固定为 20 步,极端场景可能任务失败。
  • DRM 内容兼容性差:Netflix、Disney+、HBO Max 等强制 HDCP,会杀死 QuickTime 镜像,必须回退至缓慢的 Xcode 模式或放弃视觉自动化。
  • macOS 生态锁定:依赖 AppleScript、QuickTime、Xcode,Windows/Linux 用户无法使用。
  • 截图包含敏感信息风险:用户可能未意识到搜索历史、观看记录、账户信息会被截图并外传。

适合人群

  • Plex 重度用户:直连模式体验最佳,秒开指定剧集。
  • Apple TV 自动化爱好者:愿意为自然语言控制支付少量 API 成本。
  • 技术接受度高的 macOS 用户:能接受命令行工具、环境变量配置、JSON 手动编辑。

常规风险

  • API 费用失控do 命令自动循环,若遇异常 UI 可能消耗全部 20 步才终止。建议设置 Anthropic 账户消费上限。
  • 隐私泄露:电视屏幕内容(含可能敏感信息)传输至 Anthropic 服务器,需信任其数据保留政策。
  • 凭证泄露:config.json 明文存储 Plex Token 和 Apple TV 配对凭证,用户级恶意进程可读取,系统入侵后暴露风险高。
  • 供应链成本波动:Anthropic 模型定价变更直接影响使用成本。

clawtv 内容

手动下载zip · 23.8 kB
clawtv.pytext/plain
请选择文件