使用说明

核心功能

ElevenLabs Skill 是一套完整的 AI 音频生成工具集，基于 ElevenLabs 官方 API 构建，覆盖语音合成、音效设计、音乐生成及声音管理四大场景。

文本转语音（TTS） 支持多代模型：v3 模型可通过 [laughs]、[whispers]、[excited] 等音频标签实现细腻情感表达，适合角色配音与创意内容；Turbo v2.5 针对低延迟实时对话优化；Flash v2.5 则以极速低成本满足批量需求。输出格式涵盖 MP3（32-192kbps）、Opus（推荐 AirPlay 场景）、PCM 及电话级 A-law，共 16 种选项。

音效与音乐生成 支持文本描述生成短音效（SFX）及最长 30 秒的器乐片段，可指定循环属性用于背景音床。

声音克隆（IVC） 提供即时语音复制功能，默认沙箱目录限制在 ~/.openclaw/elevenlabs/voiceclone-samples/，支持降噪处理与多语言元数据标注。

配额管理 实时追踪字符用量、订阅计划状态及按声线的消耗统计，支持 7 天历史回溯。

显著优点

情感控制领先：v3 音频标签非 SSML 结构，自然度高，业内情感 TTS 第一梯队
模型分层清晰：创作/稳定/实时/经济四档模型匹配不同场景
格式覆盖全面：从广播级 192kbps MP3 到电话 8kHz A-law，工程适配性强
安全沙箱设计：声音克隆默认受限目录，降低误操作与数据泄露风险
配额透明：内置用量监控，避免超额扣费

局限与风险

API 依赖：完全依赖 ElevenLabs 云服务，需有效订阅与网络连接
成本敏感：高质量模型与长文本生成消耗字符配额较快，Pro 计划 50 万字符/月可能不足
克隆质量波动：IVC 效果受样本质量与录音环境显著影响，复杂口音还原有限
音乐时长限制：单次生成最长 30 秒，完整曲目需分段拼接
环境依赖：需本地 Python3、ffmpeg，macOS 可选 afplay

适合人群

播客/有声书创作者：快速生成多角色配音与情绪表演
游戏/影视预演团队：临时音效、氛围音乐与旁白原型
开发者与自动化工作流：程序化音频生成，集成 CI/CD
多语言内容生产者：Turbo v2.5 对德语等非英语语种优化良好

常规风险

| 风险类型 | 说明 |

|---------|------|

| API 密钥泄露 | `ELEVENLABS_API_KEY` 需妥善保管，建议配置专用环境变量 |

| 配额超额 | 长文本与音乐生成消耗快，建议生成前执行 `quota.py` 检查 |

| 克隆伦理争议 | 他人声音克隆需获得明确授权，避免法律纠纷 |

| 输出版权 | 生成音频版权归用户，但需注意训练数据相关潜在争议 |

安全解读

核心用法

ElevenLabs Skill 是 ElevenLabs 官方 API 的 Python 客户端封装，提供完整的 AI 音频生成功能栈：

主要工具集：

speech.py: 文本转语音，支持 Eleven v3/多语言 v2/Turbo/Flash 等多模型，v3 模型支持 [laughs]、[whispers]、[excited] 等情感音频标签
sfx.py: 音效生成，支持自定义时长、循环模式，范围 0.5-30 秒
music.py: 完整音乐作曲生成，支持秒级时长控制
voices.py: 查询可用音色库
voiceclone.py: 从音频样本即时克隆语音，内置安全路径限制（仅读取 ~/.openclaw/elevenlabs/voiceclone-samples/）
quota.py: 订阅配额与用量统计查询

输出格式丰富：支持 MP3（32-192kbps）、Opus（AirPlay 优化）、PCM 原始音频、A-law 电话编码等 15 种格式。

显著优点

1. 功能全面：覆盖 TTS、音效、音乐、语音克隆四大场景，一站式满足音频 AI 需求
2. v3 情感标签创新：独特的方括号音频标签系统，无需 SSML 即可实现笑声、叹息、耳语、情绪切换等丰富表达
3. 安全设计：voiceclone.py 强制路径沙箱，防止任意文件读取；网络请求严格限定官方 API
4. 格式灵活：从低码率电话语音到高保真 AirPlay 优化 Opus，覆盖全场景音质需求
5. 配额透明：内置用量监控，避免超额消费

潜在缺点与局限性

商业依赖：完全依赖 ElevenLabs 云服务，需有效 API 密钥和付费订阅
无离线能力：所有生成任务必须联网，无法本地运行
环境配置：依赖 ffmpeg、afplay（macOS）等外部工具，跨平台兼容性需验证
输入验证待加强：部分参数（如 music.py 的 length_ms）边界检查不够严格
依赖管理缺失：无 requirements.txt，requests 库版本未明确约束

适合人群

内容创作者：需要快速生成配音、音效、背景音乐的播客/视频制作者
开发者：构建语音交互应用、游戏音频、有声书平台的工程师
多语言项目：Turbo v2.5 针对非英语（如德语）优化，适合国际化产品
创意实验者：v3 模型的情感标签为角色扮演、故事叙事提供独特表现力

常规风险

API 密钥泄露风险：ELEVENLABS_API_KEY 为唯一认证凭证，需妥善保管
费用累积：音频生成按字符/时长计费，高频调用可能产生意外账单
隐私合规：语音克隆功能涉及生物特征数据，需确保样本来源合法
.env 自动加载：quota.py 会从本地目录自动加载环境变量，多用户环境需注意隔离
版权归属：AI 生成音乐和音效的版权状态因司法管辖区而异，商用需确认授权条款

text-to-speech voice-cloning audio-generation sound-effects music-generation elevenlabs api-integration multilingual-tts content-creation

Elevenlabs 内容

scripts文件夹

手动下载zip · 19.0 kB

dialogs.pytext/plain

请选择文件