jarvis-voice

🎙️ 本地化JARVIS智能语音引擎

🥥5总安装量 2评分人数 2
100% 的用户推荐

基于sherpa-onnx的本地化TTS方案,提供JARVIS风格金属语音,零API成本、完全离线运行,保障隐私与低延迟体验。

A

基本安全,请在特定环境下使用

  • 来自社区或个人来源,建议先隔离验证
  • ✅ 纯文档型资产,无可执行代码,无数据收集与网络通信行为
  • ✅ 完全离线运行,基于开源 sherpa-onnx 框架,隐私风险极低
  • ⚠️ 来源为 T3 级个人开发者,建议自行审查文档及引用的第三方脚本
  • ⚠️ 需手动安装配置外部二进制工具(ffmpeg、sherpa-onnx、ALSA),存在版本兼容性与系统权限风险
  • ⚠️ Skill 包内不含实际的 jarvis 执行脚本,需用户自行实现或寻找外部资源

使用说明

Jarvis Voice 是一款为 OpenClaw 智能体设计的本地化文本转语音(TTS)增强方案,通过整合 sherpa-onnx 开源框架与 ffmpeg 音频处理链,赋予 AI 助手类似钢铁侠 JARVIS 的金属质感语音输出能力。该技能完全运行于本地环境,无需调用任何云端 API,特别适合对数据隐私敏感或追求零延迟语音交互的用户场景。

核心用法围绕「语音管道配置」展开。用户需先手动安装 sherpa-onnx 引擎(推荐 VITS piper 模型)及 ffmpeg、aplay 等系统工具,随后将提供的配置模板集成至 SOUL.md 文件,定义文本与语音混合输出协议。通过修改脚本参数,可精细调节语速(vits-length-scale)、金属回声(aecho)及频谱范围(highpass/lowpass),实现从机械冷感到温暖人声的风格切换。Web 界面支持通过 CSS 定制紫色斜体字幕样式,实现视觉与听觉的双重沉浸。

显著优点体现在三个维度:成本、隐私与性能。作为纯本地方案,它彻底消除了按量计费的 API 开销与网络延迟,响应速度仅受限于本地硬件;所有语音数据在设备端生成,杜绝了敏感信息外传风险;基于 ffmpeg 的音频处理链提供了极高的可定制性,用户可通过调整混响、合唱与均衡器参数,打造独一无二的语音 persona。

然而,该技能的局限性同样明显。首先,它本质上是「文档型配置指南」,skill 包内不包含实际可执行的 jarvis 脚本文件,用户需自行编写或寻找第三方实现,技术门槛较高。其次,强依赖外部二进制工具(sherpa-onnx、ffmpeg、ALSA)要求用户具备 Linux 环境配置经验,Windows/macOS 兼容性存疑。此外,音频设备配置(aplay -D 参数)常因硬件差异导致无声输出,调试过程可能涉及底层 ALSA 架构,对普通用户不够友好。

适合的目标群体包括:注重隐私的 OpenClaw 高级用户、希望在封闭内网环境部署 AI 语音的技术团队、以及热衷 DIY 音频特效的极客开发者。对于追求「开箱即用」的普通用户或缺乏 Linux 运维经验的团队,建议谨慎评估学习成本。

使用该技能的主要风险集中于依赖项管理。由于 sherpa-onnx 与 ffmpeg 需手动安装,版本不兼容或编译配置错误可能导致功能失效;音频播放依赖系统级 ALSA 驱动,容器化部署时需额外挂载音频设备权限;另外,虽然 skill 本身无恶意代码,但 T3 级来源意味着用户应自行审查任何第三方 jarvis 脚本,避免引入未经审计的 shell 命令。建议在生产环境锁定依赖版本,并在隔离环境中测试音频输出配置。

jarvis-voice 内容

手动下载zip · 2.0 kB
SKILL.mdtext/markdown
请选择文件