使用说明

videochat-withme 是一款为 OpenClaw 生态打造的实时音视频交互技能，将传统文本聊天升级为沉浸式"视频通话"体验。用户通过"视频一下"或"打电话给我"等语音指令即可触发，系统自动调起浏览器建立双向连接。核心架构整合 Groq Whisper 进行云端语音识别、Microsoft Edge-TTS 实现语音合成，并通过 OpenClaw 网关将视频帧与对话文本发送至 LLM 进行多模态处理，使 AI 能够"看见"用户并作出语音回应。

该技能的显著优势在于极致的交互自然度与系统集成度。视频通话模式大幅降低人机交互认知负荷，特别适合多任务处理场景。系统支持 macOS 原生的 launchd 服务管理，可后台常驻并配合来电通知机制，实现类似传统通讯软件的体验。模块化设计允许灵活配置本地或云端 LLM，在便利性与隐私保护间取得平衡。

然而，该技能存在明确局限性。平台兼容性受限，目前仅支持 macOS，且需要 Groq API Key 和运行中的 OpenClaw 网关。默认依赖多项云服务，弱网环境下可能出现延迟。自签名 SSL 证书虽保障通信加密，但首次访问的安全警告可能影响体验。

目标用户主要包括：希望为个人 AI Agent 增添人性化交互界面的技术爱好者；需要远程演示或 hands-free 操作的专业人士；以及构建 AI 伴侣产品的开发者。对于已深度使用 OpenClaw 生态并希望突破文本交互限制的用户，该技能提供了极具价值的补充。

使用风险方面，除常规性能依赖外，需特别关注数据隐私流向。音频流必须发送至 Groq 云端处理，视频帧配合云端 LLM 时会离开本地设备。尽管所有数据流已在文档中透明披露，敏感场景用户应优先配置本地 LLM。此外，作为 T3 来源的个人项目，长期维护稳定性需谨慎评估。

安全解读

核心用法

videochat-withme 是一款为 OpenClaw 生态打造的实时 AI 视频通话 Skill，让用户能通过摄像头和麦克风与 AI Agent 进行面对面语音交流。核心交互流程：用户语音经 Groq Whisper 云端转文字 → 摄像头画面+文本发送至 OpenClaw 网关 → AI 响应经 Microsoft edge-tts 合成语音播放。支持中英文唤醒词（如"视频一下"、"call me"），自动判断用户场景推送本地或 Tailscale 远程链接。

显著优点

多模态融合：同时处理语音、视觉、文本，Agent 具备"看见"和"听见"的沉浸式交互能力
零配置启动：setup.sh --auto 一键完成依赖安装、SSL 证书生成、launchd 服务注册
灵活接入方式：本地弹窗通知（macOS）/ 远程 URL（Tailscale/局域网）适配不同网络环境
生态深度整合：复用 OpenClaw 网关的 chatCompletions API 与记忆系统，保持对话连续性

潜在局限与风险

隐私敏感：音频上传至 Groq 云端，图像帧可能经 OpenClaw 转发至云 LLM，数据出境不可避免
macOS 独占：依赖 launchd 服务管理机制，Linux/Windows 用户无法直接使用
外部服务强依赖：Groq API Key 为必需项，网络波动或服务商故障将中断语音能力
临时文件残留：/tmp 目录音频片段需系统重启才清理，存在本地隐私泄露隐患
自签名证书首次访问繁琐：远程访问需手动点击"继续"绕过证书警告

适合人群

OpenClaw 重度用户、追求科幻感 AI 交互体验的技术尝鲜者、已部署 Tailscale 的远程办公人群、英语/中文双语使用者。

常规风险

API 密钥存储于明文文件，需确保 ~/.openclaw/secrets/ 目录权限 700
后台服务持续占用 8766 端口，可能与本地开发服务冲突
ffmpeg/edge-tts 若被恶意替换存在供应链攻击风险

productivity automation api content-media video-chat voice-interaction

videochat-withme 内容

assets文件夹

scripts文件夹

手动下载zip · 30.1 kB

index.htmltext/plain

请选择文件