核心用法
Walkie-Talkie 模式为 WhatsApp 用户提供语音到语音的完整交互闭环。当用户发送语音消息或主动触发指令(如"activa modo walkie-talkie"/"hablemos por voz")时,系统首先通过 tools/transcribe_voice.sh 将音频转录为文本,经 AI 处理后,再调用 bin/sherpa-onnx-tts 本地合成语音回复,最终以 .ogg 格式语音消息发回用户。
显著优点
- 完全本地化:转录(whisper-cpp)、语音合成(sherpa-onnx-tts)、音频处理(ffmpeg)均在本地执行,无需云端 API,保障隐私
- 低延迟响应:目标 RTF < 0.5,实现接近实时的对讲体验
- 双模输出:同时提供文本和语音回复,兼顾可读性与便利性
- 格式兼容:原生支持 WhatsApp 的 ogg/opus 音频格式
潜在局限
- 本地模型性能受硬件限制,转录和合成质量可能低于云端方案
- 仅支持单一平台(WhatsApp),缺乏跨平台通用性
- 语音合成音色、语种选择受限于本地 TTS 模型能力
- 复杂多轮对话场景下纯语音交互体验可能不如图文界面
适合人群
- 偏好语音输入/输出的 WhatsApp 活跃用户
- 注重隐私、希望避免云端语音处理的敏感用户
- 驾驶、运动等不便打字场景下的效率用户
- 西班牙语/英语为主要交流语言的用户(基于触发词判断)
常规风险
- 本地模型可能存在转录错误或偏见
- 音频文件传输和存储需关注本地磁盘安全
- 语音合成质量不稳定可能影响沟通效率
- 长时间语音交互缺乏视觉反馈,易遗漏上下文信息