使用说明

核心用法

ElevenLabs TTS 是一个专为 OpenClaw 框架设计的 ElevenLabs API 封装工具，主打 v3 模型情绪音频标签 功能。用户可通过 [excited]、[whispers]、[gasps] 等标签直接控制语音的情感表达、节奏和戏剧张力，无需复杂的 SSML 或后期处理。

典型工作流程：
1. 配置 API Key 与语音参数（stability、speed、voiceId）
2. 使用音频标签撰写带情绪提示的文本
3. 生成 MP3 → 转换为 Opus（WhatsApp 必需）→ 发送语音消息

多语言支持：英语、希伯来语、西班牙语等 70+ 语言，标签效果跨语言生效。

---

显著优点

1. 情绪标签系统：相比传统 TTS 的机械输出，v3 的 [nervous]、[laughs]、[pause] 等标签能生成极具表现力的语音，适合讲故事、播客、游戏配音
2. WhatsApp 原生集成：提供完整的 MP3→Opus 转换指引，解决 Android 兼容性痛点，支持语音转文字按钮
3. 多说话人对话：单条文本可嵌入角色名+标签，实现多角色戏剧化对话
4. 非确定性生成：同一文本多次生成结果不同，便于挑选最佳版本

---

潜在缺点与局限性

长度敏感：>800 字符后音质下降，需手动分段拼接
标签滥用风险：过度堆砌标签（>2 个/句）会导致机械感，需遵循 "1-2 标签/短语" 原则
声音匹配限制：轻声细语型 voice 无法有效执行 [shouts]，存在物理限制
非确定性双刃剑：批量生产场景下难以保证一致性
SSML 不兼容：v3 完全摒弃 SSML，迁移旧项目需重写

---

适合人群

内容创作者：播客、有声书、短视频配音
开发者：需为 WhatsApp Bot 添加自然语音交互
游戏/互动叙事：多角色对话、动态情绪反馈
多语言产品：需统一情绪控制跨语言输出

---

常规风险

| 风险点 | 说明 |

|--------|------|

| API 成本 | ElevenLabs 按字符计费，长内容需分段策略控制成本 |

| 音频截断 | 句尾可能被切断，必须手动添加 `[pause]` 或省略号 |

| 合规风险 | AI 合成语音需遵守平台政策，避免深度伪造滥用 |

| 格式陷阱 | 直接发送 MP3 导致 Android 用户无法播放，必须转 Opus |

安全解读

ElevenLabs TTS 综合评估

核心用法

ElevenLabs TTS 是 OpenClaw 平台上 ElevenLabs 语音合成服务的官方集成方案，核心能力基于 ElevenLabs v3 模型。该技能的最大特色是情感音频标签系统——通过 [excited]、[whispers]、[laughs] 等标签直接控制语音的情绪、音量、语速和反应，实现高度拟人化的语音输出。

配置流程简洁：在 openclaw.json 中设置 API Key、选择语音ID（推荐 Adam、Rachel 等 v3 优化人声）、指定 eleven_v3 模型即可调用。支持 70+ 语言，包括英语、希伯来语、西班牙语等，且所有语言均可使用完整的音频标签控制。

典型应用场景：

WhatsApp 语音消息：生成 MP3 后需转码为 Opus 格式（.ogg），确保 iOS/Android 全兼容
叙事/播客内容：利用 [pause]、[sighs] 等标签营造戏剧性张力
多语言对话：单条文本内可实现多角色对话，支持 [interrupting]、[overlapping] 等对话标签

显著优点

1. 情感控制能力突出：v3 的音频标签系统是目前消费级 TTS 中最精细的情绪控制方案，能生成具有真实呼吸声、笑声、停顿的语音
2. 多语言质量统一：非英语语种的情感表现力不打折扣，希伯来语、阿拉伯语等复杂语系支持良好
3. OpenClaw 原生集成：配置结构清晰，与消息发送工具链（tts → ffmpeg 转码 → message）无缝衔接
4. 安全透明：纯文档型技能，无代码执行，API Key 由用户自主管理

潜在缺点与局限性

长度限制严格：>800 字符后语音一致性显著下降，长内容需手动分段后合并
非确定性输出：相同参数每次生成结果不同，需多次生成择优
标签滥用风险：过多标签会导致机械感，建议每句 1-2 个标签
PVC 语音不支持：Instant Voice Clone (IVC) 和预置人声可用，专业级 PVC 尚未适配 v3
成本考量：ElevenLabs API 按字符计费，高频使用需预算规划
SSML 不兼容：传统 <break> 标签无效，必须用 [pause] 或标点控制节奏

适合人群

内容创作者：需要为播客、有声书、视频配音生成情绪化旁白
开发者/自动化工程师：构建 WhatsApp/Telegram 语音机器人，实现自然对话体验
多语言产品团队：需统一质量的全球化语音输出，避免不同语种情感表达差异
游戏/交互叙事开发者：利用对话标签实现角色间的打断、重叠等复杂语音交互

常规风险

1. API 密钥泄露：配置文件中明文存储的密钥若提交至版本控制可能造成账户被盗刷
2. 内容合规风险：生成的语音可用于深度伪造（deepfake），需遵守平台服务条款
3. 音频截断问题：生成末尾易被截断，必须手动添加 [pause] 或省略号
4. 网络依赖：完全依赖 ElevenLabs 云服务，离线不可用，API 故障时服务中断

elevenlabs tts voice-synthesis audio-generation whatsapp multilingual ai-voice emotional-speech text-to-speech

Elevenlabs Tts 内容

references文件夹

手动下载zip · 7.9 kB

audio-tags.mdtext/markdown

请选择文件