使用说明

核心用法

voice-reply 是一个基于 sherpa-onnx 和 Piper 的本地文本转语音工具，专为需要语音回复的场景设计。用户只需提供文本内容，系统即可自动生成 Telegram 兼容的语音消息（OGG Opus格式），并以气泡形式展示。

调用方式：{baseDir}/bin/voice-reply "文本内容" [语言代码]

支持德语（de/thorsten）和英语（en/ryan）
具备自动语言检测功能，可通过字符特征识别德语
输出格式包含 [[audio_as_voice]] 标签，确保Telegram正确渲染为语音气泡

显著优点

1. 完全离线：无需网络连接，不依赖任何云服务，隐私性极强
2. 零成本：无需注册账号，无API调用费用，永久免费使用
3. 开箱即用：安装脚本自动化程度高，环境变量配置清晰
4. 多语言支持：德语采用 thorsten 自然男声，英语采用 ryan 专业美音
5. 平台适配：专为 Telegram 优化，语音消息体验原生

潜在缺点与局限性

Linux独占：仅支持 Linux 系统，Windows/macOS 用户无法直接使用
环境依赖重：需手动安装 sherpa-onnx 运行时、下载语音模型（约数百MB）、配置 ffmpeg 及两个环境变量
语音选择有限：当前仅内置德/英两种男声，缺乏女声及更多语种
无实时流式合成：采用离线批处理模式，长文本响应存在延迟
语言检测简单：基于字符启发式规则，复杂混合文本可能误判

适合人群

注重隐私、拒绝云TTS服务的用户
德语/英语内容创作者、语言学习者
Telegram 机器人开发者，需低成本语音交互方案
需要在离线环境（内网、边缘设备）运行的场景

常规风险

模型文件管理：语音模型体积较大，需确保磁盘空间及下载源可靠性
环境变量持久化：服务重启后若变量丢失将导致功能失效
音频格式兼容：虽标注Telegram兼容，但极端情况下仍需验证 opus 编码参数
许可合规：Piper 模型采用 CC-BY/开源许可，商用需确认具体声源授权条款

安全解读

核心用法

voice-reply 是一款面向 Telegram 场景的本地化 TTS（文本转语音）解决方案，通过调用开源引擎 sherpa-onnx 运行 Piper 语音模型，将文本实时转换为自然语音。用户可通过命令行直接调用，支持德语（thorsten）和英语（ryan）双语音，具备自动语言检测功能。

基础调用格式：

{baseDir}/bin/voice-reply "待朗读文本" [语言代码]

输出采用 OpenClaw 约定的双行格式：首行 [[audio_as_voice]] 触发 Telegram 语音气泡展示，次行 MEDIA: 指向生成的 OGG Opus 音频文件，实现即时的语音消息回复体验。

---

显著优点

1. 完全离线运行：所有语音合成在本地完成，无需云端 API，杜绝网络延迟与隐私泄露风险，特别适合对数据主权敏感的场景。

2. 零成本零账号：无需注册、无 API 调用费用、无速率限制，长期部署成本为零。

3. 开箱即用体验：安装脚本自动化处理依赖下载与环境配置，大幅降低技术门槛。

4. 平台原生适配：专为 Telegram 设计的输出格式，语音消息以气泡形式呈现，符合即时通讯的用户习惯。

5. 多语言智能切换：基于字符特征自动识别德/英语种，也可显式指定，灵活应对双语对话场景。

---

潜在缺点与局限性

| 维度 | 说明 |

|------|------|

| **平台绑定** | 当前仅支持 Linux 系统，Windows/macOS 用户需自行适配或借助容器化方案。 |

| **存储开销** | 语音模型体积较大（德语 ~64MB，英语 ~110MB），对边缘设备存储构成压力。 |

| **语言覆盖** | 仅内置德英两种语音，中文、法语等其他语种需用户手动下载并配置第三方模型。 |

| **音质上限** | Piper 属于轻量级 TTS 方案，音质自然度不及 Azure Neural、AWS Polly 等商业云服务。 |

| **更新风险** | 依赖 GitHub Releases 动态下载，若未来版本发布格式变更，安装脚本可能失效。 |

---

适合人群

隐私优先型用户：拒绝将文本数据发送至第三方云端的企业或个人
Telegram Bot 开发者：需要为机器人添加语音回复能力的场景
德语/英语内容创作者：播客、语言学习、无障碍辅助等离线语音生成需求
低成本运维团队：希望消除 API 账单不确定性的运维工程师

---

常规风险

1. 供应链安全：安装阶段从 GitHub 下载二进制组件，虽来源可信（k2-fsa、rhasspy 为知名开源组织），但建议后续版本添加 SHA256 完整性校验以防御中间人攻击。

2. 权限管理：install.sh 需要 sudo 权限写入 /opt，在共享服务器环境需谨慎审计脚本内容。

3. 模型版权：商用场景需确认 Thorsten Voice 等数据集的具体授权条款（当前为 CC BY 4.0）。

4. 环境依赖：SHERPA_ONNX_DIR 与 PIPER_VOICES_DIR 环境变量缺失将导致运行时失败，需确保 systemd 服务或容器镜像正确注入。

text-to-speech offline-tts piper sherpa-onnx telegram-voice privacy-focused multilingual linux-only

Voice Reply 内容

scripts文件夹

手动下载zip · 4.7 kB

install.shtext/x-shellscript

请选择文件