Voice Reply

🎤 离线语音合成,零成本播报

完全离线本地TTS,基于Piper语音合成,零API成本,支持德英双语,自动生成Telegram语音消息

收藏
20k
安装
4.1k
版本
1.0.0
CLS 安全性认证2026-05-09
点击查看完整报告 >

使用说明

核心用法

voice-reply 是一个基于 sherpa-onnx 和 Piper 的本地文本转语音工具,专为需要语音回复的场景设计。用户只需提供文本内容,系统即可自动生成 Telegram 兼容的语音消息(OGG Opus格式),并以气泡形式展示。

调用方式{baseDir}/bin/voice-reply "文本内容" [语言代码]

  • 支持德语(de/thorsten)和英语(en/ryan)
  • 具备自动语言检测功能,可通过字符特征识别德语
  • 输出格式包含 [[audio_as_voice]] 标签,确保Telegram正确渲染为语音气泡

显著优点

1. 完全离线:无需网络连接,不依赖任何云服务,隐私性极强
2. 零成本:无需注册账号,无API调用费用,永久免费使用

3. 开箱即用:安装脚本自动化程度高,环境变量配置清晰

4. 多语言支持:德语采用 thorsten 自然男声,英语采用 ryan 专业美音

5. 平台适配:专为 Telegram 优化,语音消息体验原生

潜在缺点与局限性

  • Linux独占:仅支持 Linux 系统,Windows/macOS 用户无法直接使用
  • 环境依赖重:需手动安装 sherpa-onnx 运行时、下载语音模型(约数百MB)、配置 ffmpeg 及两个环境变量
  • 语音选择有限:当前仅内置德/英两种男声,缺乏女声及更多语种
  • 无实时流式合成:采用离线批处理模式,长文本响应存在延迟
  • 语言检测简单:基于字符启发式规则,复杂混合文本可能误判

适合人群

  • 注重隐私、拒绝云TTS服务的用户
  • 德语/英语内容创作者、语言学习者
  • Telegram 机器人开发者,需低成本语音交互方案
  • 需要在离线环境(内网、边缘设备)运行的场景

常规风险

  • 模型文件管理:语音模型体积较大,需确保磁盘空间及下载源可靠性
  • 环境变量持久化:服务重启后若变量丢失将导致功能失效
  • 音频格式兼容:虽标注Telegram兼容,但极端情况下仍需验证 opus 编码参数
  • 许可合规:Piper 模型采用 CC-BY/开源许可,商用需确认具体声源授权条款

安全解读

核心用法

voice-reply 是一款面向 Telegram 场景的本地化 TTS(文本转语音)解决方案,通过调用开源引擎 sherpa-onnx 运行 Piper 语音模型,将文本实时转换为自然语音。用户可通过命令行直接调用,支持德语(thorsten)和英语(ryan)双语音,具备自动语言检测功能。

基础调用格式:

{baseDir}/bin/voice-reply "待朗读文本" [语言代码]

输出采用 OpenClaw 约定的双行格式:首行 [[audio_as_voice]] 触发 Telegram 语音气泡展示,次行 MEDIA: 指向生成的 OGG Opus 音频文件,实现即时的语音消息回复体验。

---

显著优点

1. 完全离线运行:所有语音合成在本地完成,无需云端 API,杜绝网络延迟与隐私泄露风险,特别适合对数据主权敏感的场景。

2. 零成本零账号:无需注册、无 API 调用费用、无速率限制,长期部署成本为零。

3. 开箱即用体验:安装脚本自动化处理依赖下载与环境配置,大幅降低技术门槛。

4. 平台原生适配:专为 Telegram 设计的输出格式,语音消息以气泡形式呈现,符合即时通讯的用户习惯。

5. 多语言智能切换:基于字符特征自动识别德/英语种,也可显式指定,灵活应对双语对话场景。

---

潜在缺点与局限性

| 维度 | 说明 |
|------|------|
| **平台绑定** | 当前仅支持 Linux 系统,Windows/macOS 用户需自行适配或借助容器化方案。 |
| **存储开销** | 语音模型体积较大(德语 ~64MB,英语 ~110MB),对边缘设备存储构成压力。 |
| **语言覆盖** | 仅内置德英两种语音,中文、法语等其他语种需用户手动下载并配置第三方模型。 |
| **音质上限** | Piper 属于轻量级 TTS 方案,音质自然度不及 Azure Neural、AWS Polly 等商业云服务。 |
| **更新风险** | 依赖 GitHub Releases 动态下载,若未来版本发布格式变更,安装脚本可能失效。 |

---

适合人群

  • 隐私优先型用户:拒绝将文本数据发送至第三方云端的企业或个人
  • Telegram Bot 开发者:需要为机器人添加语音回复能力的场景
  • 德语/英语内容创作者:播客、语言学习、无障碍辅助等离线语音生成需求
  • 低成本运维团队:希望消除 API 账单不确定性的运维工程师

---

常规风险

1. 供应链安全:安装阶段从 GitHub 下载二进制组件,虽来源可信(k2-fsa、rhasspy 为知名开源组织),但建议后续版本添加 SHA256 完整性校验以防御中间人攻击。

2. 权限管理install.sh 需要 sudo 权限写入 /opt,在共享服务器环境需谨慎审计脚本内容。

3. 模型版权:商用场景需确认 Thorsten Voice 等数据集的具体授权条款(当前为 CC BY 4.0)。

4. 环境依赖SHERPA_ONNX_DIRPIPER_VOICES_DIR 环境变量缺失将导致运行时失败,需确保 systemd 服务或容器镜像正确注入。

Voice Reply 内容

scripts文件夹
手动下载zip · 4.7 kB
install.shtext/x-shellscript
请选择文件