screen-monitor - 双模式屏幕共享与AI视觉分析

使用说明

Screen Monitor 是一款专为 AI 助手设计的双模式屏幕共享与分析工具，旨在通过视觉能力扩展提升人机协作效率。该技能采用纯本地化架构，支持 WebRTC 和浏览器扩展两种技术路径，在确保数据隐私的前提下，实现屏幕内容的实时捕获与多模型视觉分析。

核心用法方面，该技能提供两种互补的工作模式。Fast Share（WebRTC 模式）适合快速视觉检查和受限环境，通过生成本地 WebRTC 门户 URL，用户可在浏览器中一键共享屏幕，AI 通过本地 HTTP 服务获取帧数据进行分析，无需安装任何扩展。Full Control（浏览器中继模式）则面向深度调试和 UI 自动化场景，需安装 Clawdbot 浏览器扩展，支持精确截图、元素点击和表单输入等高级交互，适用于复杂的网页调试和自动化测试流程。

显著优点包括：模型无关设计，兼容 Gemini、Claude、Qwen3-VL 等主流视觉模型；数据主权保障，所有屏幕截图仅存储于本地 /tmp 目录，通过 127.0.0.1:18795 端口传输，杜绝第三方数据泄露风险；架构轻量，仅依赖标准系统工具（curl、node、ImageMagick），无额外 npm 包负担；双模式灵活切换，既满足临时分享需求，又支持深度自动化控制。

潜在缺点不容忽视：作为 T3 级个人开源项目，代码维护的长期稳定性和安全更新依赖单一开发者；Full Control 模式需手动安装和配置浏览器扩展，对非技术用户存在门槛；后端服务默认监听 0.0.0.0:18795，若在公共网络未配置防火墙可能导致端口暴露；缺乏自动清理机制，敏感屏幕截图可能长期留存于临时目录。

适合的目标群体主要为：前端开发者进行 UI 调试和视觉回归测试；QA 工程师执行自动化测试流程；需要 AI 协助解读复杂界面或进行远程技术支持的用户；以及对数据隐私有严格要求、拒绝云截图服务的安全敏感型用户。

使用风险包括：屏幕共享过程中可能意外暴露密码、API Key 等敏感信息；多人共享服务器环境下，/tmp 目录的截图文件可能被其他用户读取；WebRTC 连接质量受本地网络环境影响，可能出现延迟或断连；浏览器扩展模式需授予页面控制权限，存在潜在的权限滥用风险（尽管代码层面无恶意行为）。

productivity development-engineering testing automation customer-support frontend

screen-monitor 内容

references文件夹

web文件夹

手动下载zip · 6.6 kB

backend-endpoint.jstext/javascript

请选择文件