Vocal Chat

📻 WhatsApp 语音对讲,本地转录即时回复

实现 WhatsApp 语音对讲模式,自动转录语音输入并本地合成语音回复,支持纯语音交互。

收藏
14.5k
安装
3.6k
版本
1.0.0
CLS 安全性认证2026-06-03
点击查看完整报告 >

使用说明

核心用法

Walkie-Talkie 模式为 WhatsApp 用户提供语音到语音的完整交互闭环。当用户发送语音消息或主动触发指令(如"activa modo walkie-talkie"/"hablemos por voz")时,系统首先通过 tools/transcribe_voice.sh 将音频转录为文本,经 AI 处理后,再调用 bin/sherpa-onnx-tts 本地合成语音回复,最终以 .ogg 格式语音消息发回用户。

显著优点

  • 完全本地化:转录(whisper-cpp)、语音合成(sherpa-onnx-tts)、音频处理(ffmpeg)均在本地执行,无需云端 API,保障隐私
  • 低延迟响应:目标 RTF < 0.5,实现接近实时的对讲体验
  • 双模输出:同时提供文本和语音回复,兼顾可读性与便利性
  • 格式兼容:原生支持 WhatsApp 的 ogg/opus 音频格式

潜在局限

  • 本地模型性能受硬件限制,转录和合成质量可能低于云端方案
  • 仅支持单一平台(WhatsApp),缺乏跨平台通用性
  • 语音合成音色、语种选择受限于本地 TTS 模型能力
  • 复杂多轮对话场景下纯语音交互体验可能不如图文界面

适合人群

  • 偏好语音输入/输出的 WhatsApp 活跃用户
  • 注重隐私、希望避免云端语音处理的敏感用户
  • 驾驶、运动等不便打字场景下的效率用户
  • 西班牙语/英语为主要交流语言的用户(基于触发词判断)

常规风险

  • 本地模型可能存在转录错误或偏见
  • 音频文件传输和存储需关注本地磁盘安全
  • 语音合成质量不稳定可能影响沟通效率
  • 长时间语音交互缺乏视觉反馈,易遗漏上下文信息

安全解读

核心用法

Walkie-Talkie 模式专为 WhatsApp 语音交互设计,实现完整的「语音输入→本地转录→AI处理→语音合成→语音输出」闭环。当用户发送语音消息或触发关键词("activa modo walkie-talkie"/"hablemos por voz")时,系统自动调用 tools/transcribe_voice.sh 将音频转为文本,经正常对话流程处理后,通过 sherpa-onnx-tts 生成本地语音文件(.ogg格式)回传。技术路径明确:ffmpeg 处理音频流、whisper-cpp 执行本地ASR、sherpa-onnx-tts 完成离线索引,全程零网络传输。

显著优点

1. 全本地化架构:语音转录与合成均依赖本地工具,彻底规避云端API的延迟、费用及隐私泄露风险
2. 实时性优异:设计目标 RTF<0.5(实时率因子),对话响应接近即时

3. 双通道输出:同时返回文字转录(便于回顾/搜索)和语音回复(场景化交互),兼顾效率与体验

4. 零配置接入:纯文档型Skill,无需API密钥或外部账户,部署即开即用

潜在局限

  • 依赖本地算力:whisper-cpp与sherpa-onnx-tts的运行效率直接受限于设备性能,低配硬件可能出现延迟
  • WhatsApp生态绑定:功能深度耦合WhatsApp文件传输机制,无法迁移至其他平台
  • 语言覆盖受限:本地TTS模型的语种支持通常少于商业云API,小语种质量可能下降
  • 无持久化记录:语音消息本身不利于后期检索,需依赖文字副本来弥补

适合人群

  • 驾驶、烹饪、运动等双手占用场景的用户
  • 对数据隐私极度敏感、拒绝云端语音处理的用户
  • 低带宽/离线环境需要稳定语音交互的用户

常规风险

尽管本Skill本身为纯文档无代码,但实际运行依赖的本地工具链(ffmpeg、whisper-cpp、sherpa-onnx-tts)需单独审计。TTS生成文件的临时存储路径(/tmp/reply.ogg)在多用户系统中可能存在权限泄露风险,建议配置专用隔离目录。此外,WhatsApp Web/桌面端的自动化交互可能受平台条款约束,长期高频使用存在账号风控可能。

Vocal Chat 内容

手动下载zip · 969 B
SKILL.mdtext/markdown
请选择文件