voice-reply

🎙️ 零成本离线语音合成专家

🥥19总安装量 4评分人数 3
100% 的用户推荐

基于 k2-fsa sherpa-onnx 的 100% 离线语音合成技能,无需 API 密钥,支持德英双语,为 Telegram 场景提供本地化语音回复能力。

A

基本安全,请在特定环境下使用

  • 来自可信来源(Github / Microsoft / 官方仓库)
  • ✅ 无动态代码执行风险,install.sh 脚本结构清晰,无 eval/exec 危险操作
  • ✅ 依赖来源完全可信,sherpa-onnx 与 Piper 均为 k2-fsa、Rhasspy 等知名开源组织维护的官方项目
  • ⚠️ 安装脚本需 root 权限执行系统级安装,属合理需求但需警惕环境被篡改风险
  • ⚠️ 使用 curl -L 从 GitHub 下载二进制文件,虽 URL 硬编码且来源可信,但建议后续版本增加 SHA256 校验
  • ✅ 无敏感信息访问行为,不读取用户密钥、密码等隐私数据

使用说明

核心用法

voice-reply 是一款专为 OpenClaw 平台设计的本地文本转语音(TTS)技能,基于 sherpa-onnx 运行时和 Piper 语音模型实现。用户通过简单的命令行调用即可将任意文本转换为语音,输出格式专为 Telegram 优化,生成带有 [[audio_as_voice]] 标签的 OGG Opus 音频文件,在聊天界面中显示为语音气泡。

使用方式极为简洁:执行 {baseDir}/bin/voice-reply "文本内容" [语言代码]],其中语言参数可选 de(德语)或 en(英语),未指定时自动检测。技能内置 Thorsten(德语,中等质量)和 Ryan(英语,高质量)两款自然男声,覆盖日常对话与专业场景需求。

显著优点

完全离线是该技能最突出的特性。与依赖云 API 的 TTS 服务不同,voice-reply 在本地完成全部语音合成流程,无需网络连接即可运行,彻底杜绝了数据外传风险,特别适合对隐私敏感的企业内网环境。

零成本门槛同样关键。无需注册账号、无需申请 API 密钥、无调用次数限制,部署后即可无限使用。对于需要高频语音交互的场景(如客服机器人、教育辅助工具),可显著降低运营成本。

开箱即用的 Telegram 集成节省了开发时间。输出格式直接兼容 OpenClaw 的媒体处理机制,开发者无需额外编写音频转换或消息格式化代码。

潜在缺点与局限性

平台限制明显:当前仅支持 Linux 系统,且需要 x86_64 架构。Windows 和 macOS 用户无法直接使用,ARM 设备(如树莓派)也需自行编译 sherpa-onnx。

部署复杂度较高:相比云 API 的一行代码调用,voice-reply 需要完成多步系统级配置——安装 sherpa-onnx 运行时(约 200MB)、下载语音模型(各 50-100MB)、配置环境变量、确保 ffmpeg 可用。对于缺乏 Linux 运维经验的用户,安装脚本虽能简化流程,但故障排查仍需一定技术背景。

语音选择有限:目前仅内置两种男声,缺乏女声选项及更多语言支持(如中文、日语)。虽然文档提供了扩展指南,但新增语音需要手动下载模型并修改脚本,对普通用户不够友好。

性能依赖硬件:本地推理对 CPU 有一定要求,低配置服务器可能出现生成延迟,且不支持 GPU 加速(当前版本)。

适合的目标群体

  • 隐私优先的开发者:金融、医疗、政务等领域,语音数据严禁出网的场景
  • Telegram Bot 运营者:需要为机器人添加语音回复功能,且希望控制长期成本
  • 德语/英语内容创作者:播客制作、语言学习应用、有声内容生成
  • 边缘计算与内网环境:无公网访问权限的私有化部署需求

使用风险

依赖项维护负担:sherpa-onnx 和 Piper 作为活跃开发的开源项目,版本更新可能导致兼容性问题。用户需关注上游发布,及时更新模型或运行时。

存储与内存占用:完整安装后约占用 400MB 磁盘空间,运行时内存占用约 100-200MB。对于资源受限的容器环境,需提前规划配额。

音频质量一致性:自动语言检测基于简单启发式规则(如识别德语变音符号),混合语言文本可能出现误判,建议关键场景显式指定语言参数。

无服务级别保障:作为本地组件,无云服务商的 SLA 承诺,系统故障时需自行排查日志(位于 /tmp/voice-reply-output.log 等位置)。

voice-reply 内容

文件夹图标scripts文件夹
手动下载zip · 4.8 kB
install.shtext/x-shellscript
请选择文件