核心用法
voice-assistant 是 OpenClaw 生态的实时语音交互界面,通过浏览器麦克风采集音频,经 WebSocket 流式传输至 STT(语音转文字)服务,将识别文本送入 OpenClaw Gateway 的 LLM 处理,再通过 TTS(文字转语音)服务将响应语音实时返回播放。用户只需运行本地服务器,打开浏览器即可与 AI 进行自然语音对话。
显著优点
极致低延迟:全链路流式架构实现亚2秒首音响应,Deepgram 双引擎组合可将延迟控制在1秒左右。 灵活配置:支持 Deepgram 与 ElevenLabs 双供应商自由组合,STT 和 TTS 可独立选择,兼顾成本、质量与多语言需求。 打断重连:内置 Barge-In 机制,用户可随时打断 AI 发言,系统自动取消当前播放并重新监听。 零代码集成:与 OpenClaw Gateway 的 OpenAI 兼容端点无缝对接,复用现有 Agent 的全部工具、记忆与上下文。
潜在缺点与局限性
外部依赖重:必须持有 Deepgram 或 ElevenLabs 的付费 API Key,产生持续调用成本。 网络敏感:WebSocket 全链路对网络稳定性要求高,弱网环境下易出现卡顿或断连。 本地部署门槛:需安装 uv、配置 Python 环境,非技术用户上手存在难度。 隐私顾虑:语音数据需上传至第三方云服务处理,敏感场景受限。
适合的目标群体
- 追求自然交互体验的 OpenClaw 深度用户
- 需要 hands-free 场景(驾驶、实验室、厨房)的开发者
- 构建语音客服、智能导购等实时对话产品的技术团队
- 愿为低延迟体验支付 API 费用的专业用户
使用风险
成本风险:流式 STT/TTS 按用量计费,长时间对话可能产生意外费用,建议配置用量监控。 隐私合规:语音内容经第三方云服务处理,需确保符合 GDPR、个人信息保护法等法规要求。 服务可用性:依赖 Deepgram/ElevenLabs 的 SLA,单点故障将导致功能完全不可用。 本地安全:默认 HTTP/WSS 传输,生产环境需自行配置 HTTPS 和访问控制,防止未授权访问。