videochat-withme

🎥 与 AI 的实时视频语音对话

🥥39总安装量 17评分人数 18
100% 的用户推荐

基于 OpenClaw 生态的实时音视频交互技能,整合 Groq 语音识别与 Microsoft TTS,让 AI 具备视觉感知与自然语音对话能力。

A

基本安全,请在特定环境下使用

  • 来自社区或个人来源,建议先隔离验证
  • ✅ 代码安全规范,无 eval/exec 等危险函数,依赖版本已锁定
  • ✅ 数据流向完全透明,已在文档中充分披露云端传输细节
  • ⚠️ 音频数据需上传至 Groq 云端进行语音识别处理
  • ⚠️ 视频画面若配合云端 LLM 可能离开本地设备,建议敏感场景使用本地模型
  • ✅ 输入验证完善,文件路径已净化,无命令注入风险

使用说明

videochat-withme 是一款为 OpenClaw 生态打造的实时音视频交互技能,将传统文本聊天升级为沉浸式"视频通话"体验。用户通过"视频一下"或"打电话给我"等语音指令即可触发,系统自动调起浏览器建立双向连接。核心架构整合 Groq Whisper 进行云端语音识别、Microsoft Edge-TTS 实现语音合成,并通过 OpenClaw 网关将视频帧与对话文本发送至 LLM 进行多模态处理,使 AI 能够"看见"用户并作出语音回应。

该技能的显著优势在于极致的交互自然度与系统集成度。视频通话模式大幅降低人机交互认知负荷,特别适合多任务处理场景。系统支持 macOS 原生的 launchd 服务管理,可后台常驻并配合来电通知机制,实现类似传统通讯软件的体验。模块化设计允许灵活配置本地或云端 LLM,在便利性与隐私保护间取得平衡。

然而,该技能存在明确局限性。平台兼容性受限,目前仅支持 macOS,且需要 Groq API Key 和运行中的 OpenClaw 网关。默认依赖多项云服务,弱网环境下可能出现延迟。自签名 SSL 证书虽保障通信加密,但首次访问的安全警告可能影响体验。

目标用户主要包括:希望为个人 AI Agent 增添人性化交互界面的技术爱好者;需要远程演示或 hands-free 操作的专业人士;以及构建 AI 伴侣产品的开发者。对于已深度使用 OpenClaw 生态并希望突破文本交互限制的用户,该技能提供了极具价值的补充。

使用风险方面,除常规性能依赖外,需特别关注数据隐私流向。音频流必须发送至 Groq 云端处理,视频帧配合云端 LLM 时会离开本地设备。尽管所有数据流已在文档中透明披露,敏感场景用户应优先配置本地 LLM。此外,作为 T3 来源的个人项目,长期维护稳定性需谨慎评估。

videochat-withme 内容

文件夹图标assets文件夹
文件夹图标scripts文件夹
手动下载zip · 30.1 kB
index.htmltext/plain
请选择文件