Elevenlabs

🔊 AI 语音与音效生成工作站

media-production榜 #5

ElevenLabs API 封装,支持多模型 TTS、音效生成、AI 音乐创作与语音克隆,提供丰富的音频格式与情感标签控制。

收藏
18.8k
安装
4.4k
版本
1.1.2
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

ElevenLabs Skill 是一套完整的语音与音频生成工具集,封装了 ElevenLabs 官方 API 的核心能力。主要涵盖五大功能模块:

1. 文本转语音 (speech.py) — 支持 Eleven v3、Multilingual v2、Turbo v2.5、Flash v2.5 四款模型。v3 模型独有「音频标签」系统,可在文本中插入 [laughs][whispers][excited] 等方括号标签实现细腻的情感与表演控制,无需复杂的 SSML 语法。

2. 音效生成 (sfx.py) — 根据文本描述生成短音效(如「电影级爆炸声」),支持循环模式与时长控制,适用于播客、视频后期。

3. AI 音乐创作 (music.py) — 生成完整器乐作品或背景音床,支持精确到毫秒的时长设定,可输出新闻片头、氛围音乐等。

4. 语音管理 (voices.py / voiceclone.py) — 列出账户可用声音库,或从音频样本克隆自定义声音。克隆功能默认限制在 ~/.openclaw/elevenlabs/voiceclone-samples/ 目录,需显式添加 --unsafe-allow-any-path 才能突破沙箱,设计上考虑了基础安全隔离。

5. 配额监控 (quota.py) — 实时查看字符用量、订阅计划、重置日期,支持 JSON 输出与历史用量分析。

显著优点

  • v3 模型的表现力:音频标签系统大幅降低情感语音的调试成本,讲故事、角色扮演、演示文稿场景效果突出
  • 格式覆盖全面:14 种输出格式,从电话级 A-law 到无损 Opus,特别标注 Opus 48kHz 为 AirPlay 最优选择
  • 多语言支持:Turbo v2.5 针对低延迟德语等非英语场景优化
  • 工程化设计:依赖 ffmpeg/afplay 实现音频分割与播放,配额脚本支持 .env 本地加载便于 cron 定时任务

潜在局限

  • 成本敏感:按字符计费,长文本或高频调用易触及 Pro 档位 50 万字符上限
  • v3 标签依赖模型理解:复杂组合可能出现不可预期的停顿或情感强度偏差
  • 音乐生成可控性有限:prompt 工程要求高,精确到秒的输出偶有偏差
  • 克隆安全沙箱:默认路径限制可能增加多项目工作流的操作摩擦

适合人群

  • 播客制作者、有声书创作者、视频博主
  • 需要多语言 TTS 的开发者与产品团队
  • 游戏/互动叙事中的动态语音生成场景

常规风险

  • API 密钥泄露ELEVENLABS_API_KEY 需妥善保管,脚本支持 .env 加载但无加密存储机制
  • 配额超额:缺乏硬性封顶,建议配合 --json 输出自建监控告警
  • 语音克隆伦理:自定义声音需确保样本版权与授权,避免深度伪造滥用

Elevenlabs 内容

暂无文件树

手动下载zip · 18.9 kB
contentapplication/octet-stream
请选择文件