使用说明

核心用法

ElevenLabs Skill 是一套完整的语音与音频生成工具集，封装了 ElevenLabs 官方 API 的核心能力。主要涵盖五大功能模块：

1. 文本转语音 (speech.py) — 支持 Eleven v3、Multilingual v2、Turbo v2.5、Flash v2.5 四款模型。v3 模型独有「音频标签」系统，可在文本中插入 [laughs]、[whispers]、[excited] 等方括号标签实现细腻的情感与表演控制，无需复杂的 SSML 语法。

2. 音效生成 (sfx.py) — 根据文本描述生成短音效（如「电影级爆炸声」），支持循环模式与时长控制，适用于播客、视频后期。

3. AI 音乐创作 (music.py) — 生成完整器乐作品或背景音床，支持精确到毫秒的时长设定，可输出新闻片头、氛围音乐等。

4. 语音管理 (voices.py / voiceclone.py) — 列出账户可用声音库，或从音频样本克隆自定义声音。克隆功能默认限制在 ~/.openclaw/elevenlabs/voiceclone-samples/ 目录，需显式添加 --unsafe-allow-any-path 才能突破沙箱，设计上考虑了基础安全隔离。

5. 配额监控 (quota.py) — 实时查看字符用量、订阅计划、重置日期，支持 JSON 输出与历史用量分析。

显著优点

v3 模型的表现力：音频标签系统大幅降低情感语音的调试成本，讲故事、角色扮演、演示文稿场景效果突出
格式覆盖全面：14 种输出格式，从电话级 A-law 到无损 Opus，特别标注 Opus 48kHz 为 AirPlay 最优选择
多语言支持：Turbo v2.5 针对低延迟德语等非英语场景优化
工程化设计：依赖 ffmpeg/afplay 实现音频分割与播放，配额脚本支持 .env 本地加载便于 cron 定时任务

潜在局限

成本敏感：按字符计费，长文本或高频调用易触及 Pro 档位 50 万字符上限
v3 标签依赖模型理解：复杂组合可能出现不可预期的停顿或情感强度偏差
音乐生成可控性有限：prompt 工程要求高，精确到秒的输出偶有偏差
克隆安全沙箱：默认路径限制可能增加多项目工作流的操作摩擦

适合人群

播客制作者、有声书创作者、视频博主
需要多语言 TTS 的开发者与产品团队
游戏/互动叙事中的动态语音生成场景

常规风险

API 密钥泄露：ELEVENLABS_API_KEY 需妥善保管，脚本支持 .env 加载但无加密存储机制
配额超额：缺乏硬性封顶，建议配合 --json 输出自建监控告警
语音克隆伦理：自定义声音需确保样本版权与授权，避免深度伪造滥用

text-to-speech voice-cloning audio-generation ai-music sound-effects elevenlabs api-wrapper podcast multilingual-tts

Elevenlabs 内容

scripts文件夹

手动下载zip · 18.9 kB

dialogs.pytext/plain

请选择文件