使用说明

核心用法

ElevenLabs TTS 是基于 ElevenLabs v3 模型的文本转语音技能，核心亮点在于情感音频标签（audio tags）系统。用户可通过方括号标签如 [excited]、[whispers]、[nervous] 直接控制语音的情绪、语速、音量和反应，实现传统TTS难以企及的表达力。

典型工作流程：
1. 配置 ELEVENLABS_API_KEY 和 ffmpeg 环境
2. 在文本中嵌入音频标签（如 [soft] It started... [pause] But something felt different）
3. 调用 tts 工具生成 MP3
4. 如需发送至 WhatsApp，用 ffmpeg 转换为 Opus 格式（.ogg）
5. 使用 message 工具发送语音消息

关键配置参数：

modelId: 必须使用 eleven_v3（唯一支持音频标签的模型）
stability: 0.3-0.5（Creative）最佳，过高会降低标签响应度
voiceId: 推荐 Adam、Rachel 等 v3 优化预制声音

显著优点

1. 情感控制粒度极细：70+音频标签覆盖情绪、反应、语速、口音、对话打断等多维度，实现"导演级"语音生成
2. 多语言原生支持：70+语言均可使用完整标签控制，包括希伯来语、阿拉伯语等复杂语种
3. WhatsApp 完整适配：内置 ffmpeg 转换流程，解决 MP3 在 Android 端的兼容性问题，支持语音转录按钮
4. 非确定性优化：同一文本可生成多个版本供挑选，适合追求完美的内容创作者
5. 长音频支持：通过分段生成+ffmpeg 拼接实现播客级长内容

潜在缺点与局限性

1. API 成本：ElevenLabs 按字符计费，高频使用成本较高；v3 为 alpha 版本，定价和稳定性可能变动
2. 标签滥用风险：过多标签（>2个/句）会导致机械感；需学习"少即是多"的撰写技巧
3. 声音匹配限制：标签效果高度依赖所选声音特性，如 [shouts] 用于轻声语音效果极差
4. 非确定性双刃剑：需多次生成选优，批量生产场景效率受限
5. SSML 不支持：v3 完全不支持 SSML，企业级精细控制需求无法满足
6. 800字符质量墙：超过此长度后声音一致性显著下降，长内容必须分段处理

适合人群

内容创作者：播客、有声书、短视频配音，需情感丰富的AI语音
开发者/自动化工程师：构建 WhatsApp 聊天机器人、语音交互系统
多语言应用开发者：需统一质量的多语言 TTS 解决方案
无障碍工具开发者：为视障用户生成自然、有情感的语音内容

常规风险

1. API 密钥泄露：ELEVENLABS_API_KEY 需妥善保管，避免硬编码提交至版本控制
2. 成本失控：长文本或高频调用易产生意外账单，建议设置用量监控
3. 版权与深度伪造：ElevenLabs 的 IVC（即时声音克隆）功能存在被滥用于伪造语音的风险，需遵守平台使用条款
4. WhatsApp 封控风险：自动化发送语音消息可能触发平台反垃圾机制，需控制发送频率
5. ffmpeg 依赖：系统必须预装 ffmpeg，容器化部署需额外配置

安全解读

核心用法

ElevenLabs TTS 是 OpenClaw 平台的官方文本转语音 Skill，深度集成 ElevenLabs v3 API。核心能力包括：

情感音频标签系统：通过 [excited]、[nervous]、[whispers] 等 30+ 标签控制语音情感、音量、节奏和反应，实现戏剧化叙事效果。标签支持组合使用（如 [nervously][whispers]），但建议每句不超过 2 个。

多语言支持：覆盖 70+ 语言，包括英语、希伯来语、西班牙语等，所有语言均支持完整的音频标签控制。

WhatsApp 语音消息：完整支持生成→转换→发送流程。生成 MP3 后需用 ffmpeg 转为 Opus 格式（.ogg），这是唯一兼容 iOS 和 Android 且支持转录按钮的格式。

长音频与多角色：支持分段生成后拼接（建议每段 <800 字符以保证质量），以及单段内的多角色对话（通过对话标签如 [interrupting] 实现）。

配置要点：需设置 ELEVENLabs_API_KEY，选择 eleven_v3 模型（唯一支持音频标签的版本），推荐 Creative（0.5）或 Natural（0.5-0.7）稳定性模式。

---

显著优点

| 优势 | 说明 |

|------|------|

| **业界领先的情感控制** | v3 模型的音频标签系统是目前消费级 TTS 中最精细的情感控制方案，远超市面常规 SSML |

| **官方集成保障** | OpenClaw 官方维护，文档详尽（298 行主文档 + 237 行标签参考），示例覆盖故事、恐怖、对话、多语言等场景 |

| **WhatsApp 原生适配** | 提供完整的 Opus 转换指导和发送模板，解决跨平台兼容性问题 |

| **无第三方依赖** | 纯 Markdown 文档型 Skill，无代码执行风险，依赖仅系统级 ffmpeg |

---

潜在缺点与局限性

| 限制 | 详情 |

|------|------|

| **v3 非确定性输出** | 相同输入可能产生不同结果，需多次生成选取最佳，增加使用成本 |

| **标签学习曲线** | 30+ 标签需实验掌握；过度使用会导致机械感，建议每句 1-2 个 |

| **长度限制** | 单段硬上限 10,000 字符，但 >800 字符后质量显著下降，长内容需手动分割 |

| **PVC 克隆不支持** | Instant Voice Clone（IVC）和预制声音可用，Professional Voice Clone（PVC）尚未适配 v3 |

| **SSML 不兼容** | 完全不支持 `<break>` 等 SSML 标签，必须用音频标签替代 |

| **API 成本** | ElevenLabs v3 按字符计费，频繁实验和重生成会增加费用 |

| **音频截断问题** | 生成末尾可能被截断，必须手动添加 `[pause]` 或 `...` 缓解 |

---

适合人群

内容创作者：播客主播、有声书制作人、短视频配音需求者
开发者/自动化用户：需通过 OpenClaw 构建 WhatsApp 语音机器人或自动化通知系统
多语言项目：需要统一情感控制跨语言语音输出的团队
叙事型应用：游戏对话、交互式故事、角色扮演场景

---

常规风险

1. API 密钥泄露：ELEVENLabs_API_KEY 需妥善保管，避免提交至版本控制
2. 内容合规：生成的语音可能被用于深度伪造（deepfake），使用者需遵守 ElevenLabs 使用政策和当地法规
3. 音频标签误读：极低概率下标签可能被当作普通文本朗读，需验证模型版本为 eleven_v3
4. ffmpeg 依赖：需确保系统 PATH 中可用，否则转换步骤失败

elevenlabs tts voice-synthesis text-to-speech emotional-audio multilingual whatsapp-integration ai-voice ffmpeg opus-format

Elevenlabs Tts 内容

references文件夹

手动下载zip · 8.3 kB

audio-tags.mdtext/markdown

请选择文件