Voice Reply

🎤 离线语音合成,零成本播报

media-processing榜 #5

完全离线本地TTS,基于Piper语音合成,零API成本,支持德英双语,自动生成Telegram语音消息

收藏
20k
安装
4.1k
版本
1.0.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

voice-reply 是一个基于 sherpa-onnx 和 Piper 的本地文本转语音工具,专为需要语音回复的场景设计。用户只需提供文本内容,系统即可自动生成 Telegram 兼容的语音消息(OGG Opus格式),并以气泡形式展示。

调用方式{baseDir}/bin/voice-reply "文本内容" [语言代码]

  • 支持德语(de/thorsten)和英语(en/ryan)
  • 具备自动语言检测功能,可通过字符特征识别德语
  • 输出格式包含 [[audio_as_voice]] 标签,确保Telegram正确渲染为语音气泡

显著优点

1. 完全离线:无需网络连接,不依赖任何云服务,隐私性极强
2. 零成本:无需注册账号,无API调用费用,永久免费使用

3. 开箱即用:安装脚本自动化程度高,环境变量配置清晰

4. 多语言支持:德语采用 thorsten 自然男声,英语采用 ryan 专业美音

5. 平台适配:专为 Telegram 优化,语音消息体验原生

潜在缺点与局限性

  • Linux独占:仅支持 Linux 系统,Windows/macOS 用户无法直接使用
  • 环境依赖重:需手动安装 sherpa-onnx 运行时、下载语音模型(约数百MB)、配置 ffmpeg 及两个环境变量
  • 语音选择有限:当前仅内置德/英两种男声,缺乏女声及更多语种
  • 无实时流式合成:采用离线批处理模式,长文本响应存在延迟
  • 语言检测简单:基于字符启发式规则,复杂混合文本可能误判

适合人群

  • 注重隐私、拒绝云TTS服务的用户
  • 德语/英语内容创作者、语言学习者
  • Telegram 机器人开发者,需低成本语音交互方案
  • 需要在离线环境(内网、边缘设备)运行的场景

常规风险

  • 模型文件管理:语音模型体积较大,需确保磁盘空间及下载源可靠性
  • 环境变量持久化:服务重启后若变量丢失将导致功能失效
  • 音频格式兼容:虽标注Telegram兼容,但极端情况下仍需验证 opus 编码参数
  • 许可合规:Piper 模型采用 CC-BY/开源许可,商用需确认具体声源授权条款

Voice Reply 内容

暂无文件树

手动下载zip · 4.7 kB
contentapplication/octet-stream
请选择文件