Vocal Chat

📻 WhatsApp 语音对讲,本地转录即时回复

communication榜 #21

实现 WhatsApp 语音对讲模式,自动转录语音输入并本地合成语音回复,支持纯语音交互。

收藏
14.5k
安装
3.6k
版本
1.0.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

Walkie-Talkie 模式为 WhatsApp 用户提供语音到语音的完整交互闭环。当用户发送语音消息或主动触发指令(如"activa modo walkie-talkie"/"hablemos por voz")时,系统首先通过 tools/transcribe_voice.sh 将音频转录为文本,经 AI 处理后,再调用 bin/sherpa-onnx-tts 本地合成语音回复,最终以 .ogg 格式语音消息发回用户。

显著优点

  • 完全本地化:转录(whisper-cpp)、语音合成(sherpa-onnx-tts)、音频处理(ffmpeg)均在本地执行,无需云端 API,保障隐私
  • 低延迟响应:目标 RTF < 0.5,实现接近实时的对讲体验
  • 双模输出:同时提供文本和语音回复,兼顾可读性与便利性
  • 格式兼容:原生支持 WhatsApp 的 ogg/opus 音频格式

潜在局限

  • 本地模型性能受硬件限制,转录和合成质量可能低于云端方案
  • 仅支持单一平台(WhatsApp),缺乏跨平台通用性
  • 语音合成音色、语种选择受限于本地 TTS 模型能力
  • 复杂多轮对话场景下纯语音交互体验可能不如图文界面

适合人群

  • 偏好语音输入/输出的 WhatsApp 活跃用户
  • 注重隐私、希望避免云端语音处理的敏感用户
  • 驾驶、运动等不便打字场景下的效率用户
  • 西班牙语/英语为主要交流语言的用户(基于触发词判断)

常规风险

  • 本地模型可能存在转录错误或偏见
  • 音频文件传输和存储需关注本地磁盘安全
  • 语音合成质量不稳定可能影响沟通效率
  • 长时间语音交互缺乏视觉反馈,易遗漏上下文信息

Vocal Chat 内容

暂无文件树

手动下载zip · 969 B
contentapplication/octet-stream
请选择文件