voice-assistant

🎙️ 亚2秒延迟的实时AI语音对话

🥥8总安装量 2评分人数 2
100% 的用户推荐

OpenClaw官方实时语音助手,集成Deepgram/ElevenLabs双引擎,实现亚2秒超低延迟语音交互,让AI对话自然如真人通话。

B

存在边界风险,建议在隔离环境中验证

  • 来自可信组织或认证账号,需要结合权限范围判断
  • ✅ 未发现恶意代码或高危安全漏洞,代码结构清晰规范
  • ✅ API 密钥通过环境变量管理,无硬编码凭证风险
  • ✅ 依赖均为知名开源库(FastAPI、Uvicorn、WebSockets),无已知安全问题
  • ⚠️ 音频数据直接转发至外部 API,输入验证依赖第三方服务
  • ⚠️ FastAPI 默认 CORS 配置,建议生产环境显式限制允许来源
  • ⚠️ 日志可能记录用户语音转录内容,需注意隐私脱敏处理

使用说明

核心用法

voice-assistant 是 OpenClaw 生态的实时语音交互界面,通过浏览器麦克风采集音频,经 WebSocket 流式传输至 STT(语音转文字)服务,将识别文本送入 OpenClaw Gateway 的 LLM 处理,再通过 TTS(文字转语音)服务将响应语音实时返回播放。用户只需运行本地服务器,打开浏览器即可与 AI 进行自然语音对话。

显著优点

极致低延迟:全链路流式架构实现亚2秒首音响应,Deepgram 双引擎组合可将延迟控制在1秒左右。 灵活配置:支持 Deepgram 与 ElevenLabs 双供应商自由组合,STT 和 TTS 可独立选择,兼顾成本、质量与多语言需求。 打断重连:内置 Barge-In 机制,用户可随时打断 AI 发言,系统自动取消当前播放并重新监听。 零代码集成:与 OpenClaw Gateway 的 OpenAI 兼容端点无缝对接,复用现有 Agent 的全部工具、记忆与上下文。

潜在缺点与局限性

外部依赖重:必须持有 Deepgram 或 ElevenLabs 的付费 API Key,产生持续调用成本。 网络敏感:WebSocket 全链路对网络稳定性要求高,弱网环境下易出现卡顿或断连。 本地部署门槛:需安装 uv、配置 Python 环境,非技术用户上手存在难度。 隐私顾虑:语音数据需上传至第三方云服务处理,敏感场景受限。

适合的目标群体

  • 追求自然交互体验的 OpenClaw 深度用户
  • 需要 hands-free 场景(驾驶、实验室、厨房)的开发者
  • 构建语音客服、智能导购等实时对话产品的技术团队
  • 愿为低延迟体验支付 API 费用的专业用户

使用风险

成本风险:流式 STT/TTS 按用量计费,长时间对话可能产生意外费用,建议配置用量监控。 隐私合规:语音内容经第三方云服务处理,需确保符合 GDPR、个人信息保护法等法规要求。 服务可用性:依赖 Deepgram/ElevenLabs 的 SLA,单点故障将导致功能完全不可用。 本地安全:默认 HTTP/WSS 传输,生产环境需自行配置 HTTPS 和访问控制,防止未授权访问。

voice-assistant 内容

文件夹图标scripts文件夹
文件夹图标static文件夹
手动下载zip · 12.9 kB
__init__.pytext/plain
请选择文件