voice-assistant - 亚2秒延迟的实时AI语音对话

使用说明

核心用法

voice-assistant 是 OpenClaw 生态的实时语音交互界面，通过浏览器麦克风采集音频，经 WebSocket 流式传输至 STT（语音转文字）服务，将识别文本送入 OpenClaw Gateway 的 LLM 处理，再通过 TTS（文字转语音）服务将响应语音实时返回播放。用户只需运行本地服务器，打开浏览器即可与 AI 进行自然语音对话。

显著优点

极致低延迟：全链路流式架构实现亚2秒首音响应，Deepgram 双引擎组合可将延迟控制在1秒左右。 灵活配置：支持 Deepgram 与 ElevenLabs 双供应商自由组合，STT 和 TTS 可独立选择，兼顾成本、质量与多语言需求。 打断重连：内置 Barge-In 机制，用户可随时打断 AI 发言，系统自动取消当前播放并重新监听。 零代码集成：与 OpenClaw Gateway 的 OpenAI 兼容端点无缝对接，复用现有 Agent 的全部工具、记忆与上下文。

潜在缺点与局限性

外部依赖重：必须持有 Deepgram 或 ElevenLabs 的付费 API Key，产生持续调用成本。 网络敏感：WebSocket 全链路对网络稳定性要求高，弱网环境下易出现卡顿或断连。 本地部署门槛：需安装 uv、配置 Python 环境，非技术用户上手存在难度。 隐私顾虑：语音数据需上传至第三方云服务处理，敏感场景受限。

适合的目标群体

追求自然交互体验的 OpenClaw 深度用户
需要 hands-free 场景（驾驶、实验室、厨房）的开发者
构建语音客服、智能导购等实时对话产品的技术团队
愿为低延迟体验支付 API 费用的专业用户

使用风险

成本风险：流式 STT/TTS 按用量计费，长时间对话可能产生意外费用，建议配置用量监控。 隐私合规：语音内容经第三方云服务处理，需确保符合 GDPR、个人信息保护法等法规要求。 服务可用性：依赖 Deepgram/ElevenLabs 的 SLA，单点故障将导致功能完全不可用。 本地安全：默认 HTTP/WSS 传输，生产环境需自行配置 HTTPS 和访问控制，防止未授权访问。

productivity content-media api automation frontend

voice-assistant 内容

scripts文件夹

static文件夹

手动下载zip · 12.9 kB

__init__.pytext/plain

请选择文件