使用说明

核心用法

ElevenLabs Skill 是一套完整的语音与音频生成工具集，通过命令行脚本与 ElevenLabs 云端 API 交互。主要功能包括：

语音合成（TTS）：speech.py 支持多模型选择，Eleven v3 提供创新的「音频标签」功能（如 [laughs]、[whispers]、[excited]），可在文本中直接嵌入情感表达指令，无需复杂 SSML。输出格式覆盖 MP3、Opus、PCM 等 14 种编码，支持 8kHz 电话音质到 48kHz 高保真。

音效与音乐生成：sfx.py 生成短音效，music.py 创作长达 30 秒以上的器乐片段，均支持循环标记与自定义时长。

语音管理：voices.py 列出可用音色，voiceclone.py 实现即时语音克隆——默认限制从 ~/.openclaw/elevenlabs/voiceclone-samples/ 读取样本，通过 --unsafe-allow-any-path 显式开启任意路径访问。

配额监控：quota.py 实时显示字符用量、订阅计划、重置周期及按音色统计的使用明细。

显著优点

情感表达领先：v3 模型的音频标签系统大幅降低角色配音门槛，无需专业后期即可实现笑声、叹息、耳语等细腻演绎
格式灵活性：Opus 48kHz 专为 AirPlay 优化，PCM /raw 格式便于下游音频工程处理
安全沙盒设计：语音克隆默认锁定专用目录，防止意外读取敏感文件
多语言支持：Turbo v2.5 针对德语等非英语场景优化延迟

潜在局限

商业成本：ElevenLabs 按字符计费，高频使用需关注配额消耗；Pro 计划月限 50 万字符
网络依赖：所有生成依赖云端 API，离线不可用
平台限制：macOS 可选 afplay 播放辅助，Linux/Windows 需自行配置播放链
克隆质量波动：即时克隆（IVC）效果受样本质量影响，专业克隆（PVC）需额外配额

适合人群

播客制作人、游戏开发者、有声书创作者、多语言客服系统开发者、需要快速原型音频的独立开发者。

常规风险

API 密钥泄露可能导致配额盗用；语音克隆技术存在被滥用于深度伪造的伦理风险，需遵守 ElevenLabs 使用政策；生成内容版权归属需参考平台条款。

text-to-speech voice-cloning audio-generation elevenlabs tts sound-effects music-generation api-integration

Elevenlabs 内容

scripts文件夹

手动下载zip · 19.2 kB

dialogs.pytext/plain

请选择文件