voice-reply

🎙️ 零成本离线语音合成专家

基于 k2-fsa sherpa-onnx 的 100% 离线语音合成技能,无需 API 密钥,支持德英双语,为 Telegram 场景提供本地化语音回复能力。

收藏
7.3k
安装
1.5k
版本
v1.0.0
CLS 安全性认证2026-06-04
点击查看完整报告 >

使用说明

核心用法

voice-reply 是一款专为 OpenClaw 平台设计的本地文本转语音(TTS)技能,基于 sherpa-onnx 运行时和 Piper 语音模型实现。用户通过简单的命令行调用即可将任意文本转换为语音,输出格式专为 Telegram 优化,生成带有 [[audio_as_voice]] 标签的 OGG Opus 音频文件,在聊天界面中显示为语音气泡。

使用方式极为简洁:执行 {baseDir}/bin/voice-reply "文本内容" [语言代码]],其中语言参数可选 de(德语)或 en(英语),未指定时自动检测。技能内置 Thorsten(德语,中等质量)和 Ryan(英语,高质量)两款自然男声,覆盖日常对话与专业场景需求。

显著优点

完全离线是该技能最突出的特性。与依赖云 API 的 TTS 服务不同,voice-reply 在本地完成全部语音合成流程,无需网络连接即可运行,彻底杜绝了数据外传风险,特别适合对隐私敏感的企业内网环境。

零成本门槛同样关键。无需注册账号、无需申请 API 密钥、无调用次数限制,部署后即可无限使用。对于需要高频语音交互的场景(如客服机器人、教育辅助工具),可显著降低运营成本。

开箱即用的 Telegram 集成节省了开发时间。输出格式直接兼容 OpenClaw 的媒体处理机制,开发者无需额外编写音频转换或消息格式化代码。

潜在缺点与局限性

平台限制明显:当前仅支持 Linux 系统,且需要 x86_64 架构。Windows 和 macOS 用户无法直接使用,ARM 设备(如树莓派)也需自行编译 sherpa-onnx。

部署复杂度较高:相比云 API 的一行代码调用,voice-reply 需要完成多步系统级配置——安装 sherpa-onnx 运行时(约 200MB)、下载语音模型(各 50-100MB)、配置环境变量、确保 ffmpeg 可用。对于缺乏 Linux 运维经验的用户,安装脚本虽能简化流程,但故障排查仍需一定技术背景。

语音选择有限:目前仅内置两种男声,缺乏女声选项及更多语言支持(如中文、日语)。虽然文档提供了扩展指南,但新增语音需要手动下载模型并修改脚本,对普通用户不够友好。

性能依赖硬件:本地推理对 CPU 有一定要求,低配置服务器可能出现生成延迟,且不支持 GPU 加速(当前版本)。

适合的目标群体

  • 隐私优先的开发者:金融、医疗、政务等领域,语音数据严禁出网的场景
  • Telegram Bot 运营者:需要为机器人添加语音回复功能,且希望控制长期成本
  • 德语/英语内容创作者:播客制作、语言学习应用、有声内容生成
  • 边缘计算与内网环境:无公网访问权限的私有化部署需求

使用风险

依赖项维护负担:sherpa-onnx 和 Piper 作为活跃开发的开源项目,版本更新可能导致兼容性问题。用户需关注上游发布,及时更新模型或运行时。

存储与内存占用:完整安装后约占用 400MB 磁盘空间,运行时内存占用约 100-200MB。对于资源受限的容器环境,需提前规划配额。

音频质量一致性:自动语言检测基于简单启发式规则(如识别德语变音符号),混合语言文本可能出现误判,建议关键场景显式指定语言参数。

无服务级别保障:作为本地组件,无云服务商的 SLA 承诺,系统故障时需自行排查日志(位于 /tmp/voice-reply-output.log 等位置)。

安全解读

核心功能

voice-reply 是一款基于 Piper TTS 引擎的本地文本转语音工具,通过 sherpa-onnx 运行时实现完全离线的语音合成。该 Skill 专为即时通讯场景设计,能够将文本自动转换为 Telegram 兼容的语音消息格式(OGG Opus),并以气泡形式呈现。

显著优点

完全隐私保护:100% 离线运行,无需网络连接、无需注册账号、无需 API 密钥,从根本上杜绝云端数据泄露风险,符合 GDPR 合规要求。

开箱即用体验:支持德英双语自动检测,内置 Thorsten(德语,自然男声)和 Ryan(英语,清晰美式男声)两个高质量语音模型,用户只需输入文本即可获得自然流畅的语音输出。

原生平台集成:输出格式专为 Telegram 优化,通过 [[audio_as_voice]] 标签实现语音消息气泡展示,无缝融入聊天交互流程。

潜在局限

Linux 独占限制:当前仅支持 Linux 系统,Windows 和 macOS 用户无法直接使用,平台覆盖度有限。

环境配置门槛:安装过程依赖手动配置环境变量(SHERPA_ONNX_DIR、PIPER_VOICES_DIR)和系统级目录权限,对非技术用户存在一定上手难度。

语音选择有限:相比云端 TTS 服务(如 Azure、Google Cloud),本地预置的两种语音在情感表达、多说话人切换等方面灵活性不足。

动态下载风险:安装脚本从 GitHub 远程拉取二进制依赖,虽来源可信(k2-fsa/sherpa-onnx 官方仓库),但缺乏内置的 SHA256 校验机制,存在中间人攻击的理论风险。

适合人群

  • 注重隐私、拒绝云端服务的 Telegram 高级用户
  • 需要德语/英语语音合成的本地化应用场景
  • 具备基本 Linux 运维能力的技术人员
  • 追求零订阅成本的个人开发者和小型团队

常规风险

| 风险类别 | 等级 | 说明 |
|---------|------|------|
| 隐私泄露 | 极低 | 纯离线处理,无数据上传 |
| 供应链攻击 | 低 | 依赖 GitHub 官方仓库,建议添加校验和验证 |
| 权限升级 | 低 | 安装需 sudo,功能与权限需求匹配 |
| 维护持续性 | 中 | T3 个人开发者来源,需关注后续更新 |

voice-reply 内容

scripts文件夹
手动下载zip · 4.8 kB
install.shtext/x-shellscript
请选择文件