clawvox

🎙️ 专业级 AI 语音工作室

🥥4总安装量 2评分人数 2
100% 的用户推荐

基于 ElevenLabs 官方 API 的 OpenClaw 语音工作室,提供 TTS、语音克隆、音效生成等专业音频处理能力,适合内容创作者和开发者快速构建语音应用。

B

存在边界风险,建议在隔离环境中验证

  • 来自可信组织或认证账号,需要结合权限范围判断
  • ✅ 无代码注入风险:脚本未使用 eval 或动态代码执行,用户输入通过 jq 安全处理
  • ✅ 网络通信安全:仅向官方 api.elevenlabs.io 发送 HTTPS 请求,API 密钥通过 Header 传输不暴露于 URL
  • ⚠️ 路径遍历风险:用户指定的 `--out` 输出路径未做规范化验证,可能包含 `../` 写入非预期目录
  • ⚠️ 输入处理待优化:文本内容通过管道传递给 jq,建议改用 `--arg` 参数传递增强安全性
  • ✅ 敏感信息保护:API 密钥长度验证完善,不会被记录到日志,无权限提升操作

使用说明

核心用法

ClawVox 是一个将 ElevenLabs 强大语音能力集成到 OpenClaw 环境的 Skill,通过一系列 Shell 脚本封装了完整的语音工作流。用户可通过 speak.sh 实现文本转语音,支持 32 种语言的实时/高质量模式切换;transcribe.sh 完成语音转文本,支持时间戳输出;clone.sh 仅需 30 秒样本即可克隆个性化声音;sfx.sh 通过文本描述生成 0.5-22 秒的定制音效;isolate.sh 智能分离人声与背景噪音;dub.sh 实现 29 种语言的自动配音翻译。所有脚本均通过 ELEVENLABS_API_KEY 认证,配置灵活支持环境变量或 JSON 配置文件。

显著优点

功能全面性:覆盖语音生产全链条,从生成、转换、克隆到后期处理一站式解决,无需切换多个工具。技术先进性:直接对接 ElevenLabs 业界领先的神经网络语音模型,Flash 模式延迟低至 75ms,Multilingual v2 支持长文本高质量输出。易用性设计:命令行接口简洁直观,预设 25+ 种官方声音,支持语音库搜索、预览和管理。扩展性:基于标准 curl/jq 工具链,无复杂依赖,易于集成到自动化工作流。成本透明:免费 tier 提供每月约 1 万字符额度,付费方案按量计费清晰可控。

潜在缺点与局限性

外部依赖风险:核心功能完全依赖 ElevenLabs 云服务,API 限流、服务中断或定价调整将直接影响可用性。文件处理限制:转录最大 100MB、配音最大 500MB、克隆单文件 50MB,大文件需预处理。路径安全待加强:用户指定的 --out 参数未做路径遍历防护,存在潜在的文件写入风险。沙箱环境要求:部分 OpenClaw 配置需显式启用 sandbox 模式才能执行,增加了部署复杂度。语言支持不均:虽然覆盖主流语言,但小语种语音质量和克隆效果可能不如英语成熟。

适合的目标群体

内容创作者:播客主播、有声书制作人、视频博主,需要快速生成专业配音和音效。开发者与产品经理:构建语音交互应用、AI 助手、客服系统的技术团队,需要可编程的 TTS/STT 能力。本地化团队:跨国企业的多语言内容制作人员,利用 dubbing 功能降低翻译配音成本。教育与无障碍领域:制作教学音频、为视障用户提供语音内容转换的机构和开发者。

使用风险

性能层面:语音克隆和高质量生成耗时较长,实时场景需选用 Flash 模型;大文件上传受网络带宽制约。成本控制:未设置用量预警机制,高频调用易超出免费额度产生意外费用。隐私合规:语音样本和生成内容上传至第三方云端,涉及声纹生物特征数据需评估 GDPR/个人信息保护法合规性。API 密钥管理:密钥以明文环境变量存储,多用户共享环境存在泄露风险,建议配合密钥管理服务使用。

clawvox 内容

文件夹图标bin文件夹
文件夹图标scripts文件夹
手动下载zip · 27.1 kB
elevenlabs.mdtext/markdown
请选择文件