videochat-withme

🎥 与 AI 的实时视频语音对话

基于 OpenClaw 生态的实时音视频交互技能,整合 Groq 语音识别与 Microsoft TTS,让 AI 具备视觉感知与自然语音对话能力。

收藏
4.1k
安装
1.8k
版本
v1.1.0
CLS 安全性认证2026-05-11
点击查看完整报告 >

使用说明

videochat-withme 是一款为 OpenClaw 生态打造的实时音视频交互技能,将传统文本聊天升级为沉浸式"视频通话"体验。用户通过"视频一下"或"打电话给我"等语音指令即可触发,系统自动调起浏览器建立双向连接。核心架构整合 Groq Whisper 进行云端语音识别、Microsoft Edge-TTS 实现语音合成,并通过 OpenClaw 网关将视频帧与对话文本发送至 LLM 进行多模态处理,使 AI 能够"看见"用户并作出语音回应。

该技能的显著优势在于极致的交互自然度与系统集成度。视频通话模式大幅降低人机交互认知负荷,特别适合多任务处理场景。系统支持 macOS 原生的 launchd 服务管理,可后台常驻并配合来电通知机制,实现类似传统通讯软件的体验。模块化设计允许灵活配置本地或云端 LLM,在便利性与隐私保护间取得平衡。

然而,该技能存在明确局限性。平台兼容性受限,目前仅支持 macOS,且需要 Groq API Key 和运行中的 OpenClaw 网关。默认依赖多项云服务,弱网环境下可能出现延迟。自签名 SSL 证书虽保障通信加密,但首次访问的安全警告可能影响体验。

目标用户主要包括:希望为个人 AI Agent 增添人性化交互界面的技术爱好者;需要远程演示或 hands-free 操作的专业人士;以及构建 AI 伴侣产品的开发者。对于已深度使用 OpenClaw 生态并希望突破文本交互限制的用户,该技能提供了极具价值的补充。

使用风险方面,除常规性能依赖外,需特别关注数据隐私流向。音频流必须发送至 Groq 云端处理,视频帧配合云端 LLM 时会离开本地设备。尽管所有数据流已在文档中透明披露,敏感场景用户应优先配置本地 LLM。此外,作为 T3 来源的个人项目,长期维护稳定性需谨慎评估。

安全解读

核心用法

videochat-withme 是一款为 OpenClaw 生态打造的实时 AI 视频通话 Skill,让用户能通过摄像头和麦克风与 AI Agent 进行面对面语音交流。核心交互流程:用户语音经 Groq Whisper 云端转文字 → 摄像头画面+文本发送至 OpenClaw 网关 → AI 响应经 Microsoft edge-tts 合成语音播放。支持中英文唤醒词(如"视频一下"、"call me"),自动判断用户场景推送本地或 Tailscale 远程链接。

显著优点

  • 多模态融合:同时处理语音、视觉、文本,Agent 具备"看见"和"听见"的沉浸式交互能力
  • 零配置启动setup.sh --auto 一键完成依赖安装、SSL 证书生成、launchd 服务注册
  • 灵活接入方式:本地弹窗通知(macOS)/ 远程 URL(Tailscale/局域网)适配不同网络环境
  • 生态深度整合:复用 OpenClaw 网关的 chatCompletions API 与记忆系统,保持对话连续性

潜在局限与风险

  • 隐私敏感:音频上传至 Groq 云端,图像帧可能经 OpenClaw 转发至云 LLM,数据出境不可避免
  • macOS 独占:依赖 launchd 服务管理机制,Linux/Windows 用户无法直接使用
  • 外部服务强依赖:Groq API Key 为必需项,网络波动或服务商故障将中断语音能力
  • 临时文件残留:/tmp 目录音频片段需系统重启才清理,存在本地隐私泄露隐患
  • 自签名证书首次访问繁琐:远程访问需手动点击"继续"绕过证书警告

适合人群

OpenClaw 重度用户、追求科幻感 AI 交互体验的技术尝鲜者、已部署 Tailscale 的远程办公人群、英语/中文双语使用者。

常规风险

  • API 密钥存储于明文文件,需确保 ~/.openclaw/secrets/ 目录权限 700
  • 后台服务持续占用 8766 端口,可能与本地开发服务冲突
  • ffmpeg/edge-tts 若被恶意替换存在供应链攻击风险

videochat-withme 内容

assets文件夹
scripts文件夹
手动下载zip · 30.1 kB
index.htmltext/plain
请选择文件