使用说明

核心用法

Walkie-Talkie 模式为 WhatsApp 用户提供语音到语音的完整交互闭环。当用户发送语音消息或主动触发指令（如"activa modo walkie-talkie"/"hablemos por voz"）时，系统首先通过 tools/transcribe_voice.sh 将音频转录为文本，经 AI 处理后，再调用 bin/sherpa-onnx-tts 本地合成语音回复，最终以 .ogg 格式语音消息发回用户。

显著优点

完全本地化：转录（whisper-cpp）、语音合成（sherpa-onnx-tts）、音频处理（ffmpeg）均在本地执行，无需云端 API，保障隐私
低延迟响应：目标 RTF < 0.5，实现接近实时的对讲体验
双模输出：同时提供文本和语音回复，兼顾可读性与便利性
格式兼容：原生支持 WhatsApp 的 ogg/opus 音频格式

潜在局限

本地模型性能受硬件限制，转录和合成质量可能低于云端方案
仅支持单一平台（WhatsApp），缺乏跨平台通用性
语音合成音色、语种选择受限于本地 TTS 模型能力
复杂多轮对话场景下纯语音交互体验可能不如图文界面

适合人群

偏好语音输入/输出的 WhatsApp 活跃用户
注重隐私、希望避免云端语音处理的敏感用户
驾驶、运动等不便打字场景下的效率用户
西班牙语/英语为主要交流语言的用户（基于触发词判断）

常规风险

本地模型可能存在转录错误或偏见
音频文件传输和存储需关注本地磁盘安全
语音合成质量不稳定可能影响沟通效率
长时间语音交互缺乏视觉反馈，易遗漏上下文信息

安全解读

核心用法

Walkie-Talkie 模式专为 WhatsApp 语音交互设计，实现完整的「语音输入→本地转录→AI处理→语音合成→语音输出」闭环。当用户发送语音消息或触发关键词（"activa modo walkie-talkie"/"hablemos por voz"）时，系统自动调用 tools/transcribe_voice.sh 将音频转为文本，经正常对话流程处理后，通过 sherpa-onnx-tts 生成本地语音文件（.ogg格式）回传。技术路径明确：ffmpeg 处理音频流、whisper-cpp 执行本地ASR、sherpa-onnx-tts 完成离线索引，全程零网络传输。

显著优点

1. 全本地化架构：语音转录与合成均依赖本地工具，彻底规避云端API的延迟、费用及隐私泄露风险
2. 实时性优异：设计目标 RTF<0.5（实时率因子），对话响应接近即时
3. 双通道输出：同时返回文字转录（便于回顾/搜索）和语音回复（场景化交互），兼顾效率与体验
4. 零配置接入：纯文档型Skill，无需API密钥或外部账户，部署即开即用

潜在局限

依赖本地算力：whisper-cpp与sherpa-onnx-tts的运行效率直接受限于设备性能，低配硬件可能出现延迟
WhatsApp生态绑定：功能深度耦合WhatsApp文件传输机制，无法迁移至其他平台
语言覆盖受限：本地TTS模型的语种支持通常少于商业云API，小语种质量可能下降
无持久化记录：语音消息本身不利于后期检索，需依赖文字副本来弥补

适合人群

驾驶、烹饪、运动等双手占用场景的用户
对数据隐私极度敏感、拒绝云端语音处理的用户
低带宽/离线环境需要稳定语音交互的用户

常规风险

尽管本Skill本身为纯文档无代码，但实际运行依赖的本地工具链（ffmpeg、whisper-cpp、sherpa-onnx-tts）需单独审计。TTS生成文件的临时存储路径（/tmp/reply.ogg）在多用户系统中可能存在权限泄露风险，建议配置专用隔离目录。此外，WhatsApp Web/桌面端的自动化交互可能受平台条款约束，长期高频使用存在账号风控可能。

voice whatsapp tts transcription privacy local-ml spanish accessibility

Vocal Chat 内容

手动下载zip · 969 B

SKILL.mdtext/markdown

请选择文件