使用说明

核心用法

ElevenLabs TTS 是基于 ElevenLabs API v3 的语音合成工具，核心能力在于情感音频标签（Audio Tags）——通过 [excited]、[whispers]、[laughs] 等标签直接控制语音的情绪、语速、音量及反应，无需复杂参数调节。

典型工作流程：
1. 配置 ELEVENLABS_API_KEY 和 ffmpeg
2. 在 openclaw.json 中设置语音参数（voiceId、stability、speed 等）
3. 使用 tts 工具生成音频，文本中嵌入音频标签控制表达
4. 通过 ffmpeg 将 MP3 转换为 Opus（WhatsApp 兼容性必需）
5. 使用 message 工具发送语音消息

音频标签最佳实践： 每句 1-2 个标签，置于情感转折点；标签具有持续性，无需重复；结合标点符号（省略号、破折号、大写）增强效果。

显著优点

情感表达细腻：v3 模型原生支持 30+ 音频标签，可生成带有笑声、叹息、耳语、停顿等自然反应的语音，远超市面常规 TTS
多语言支持：70+ 语言，包括希伯来语、阿拉伯语等复杂语种
WhatsApp 深度集成：完整文档覆盖格式转换（MP3→Opus）、Android/iOS 兼容性、音频截断修复等真实场景问题
长内容处理：提供分片生成 + ffmpeg 拼接方案，支持播客级长音频
多角色对话：单条生成可处理多人对话，支持 [interrupting]、[overlapping] 等对话标签

潜在缺点与局限性

API 依赖：必须持有 ElevenLabs API key，存在成本门槛（按字符计费）
非确定性输出：相同输入可能产生不同结果，需多次生成择优
长度限制：>800 字符质量下降，>10,000 字符硬截断
标签可靠性参差：[explosion]、[French accent] 等效果因语音而异，需测试验证
无 SSML 支持：v3 不支持标准 SSML 标签，迁移成本高
稳定性权衡：低 stability（0.3-0.5）提升标签响应但增加幻觉风险

适合人群

内容创作者：播客、有声书、短视频配音，需快速产出情感丰富的语音
多语言运营者：WhatsApp 商业账号需本地化语音消息
开发者/自动化用户：通过 OpenClaw 集成，构建语音消息自动化流程

常规风险

| 风险项 | 说明 |

|--------|------|

| API 密钥泄露 | `ELEVENLABS_API_KEY` 暴露可能导致账户滥用和费用损失 |

| 成本失控 | 长文本、高频调用、多次重生成均消耗 credits |

| 版权问题 | 商业使用需确认 ElevenLabs 语音授权范围，IVC 克隆需获得本人同意 |

| 输出质量波动 | v3 非确定性可能导致生产环境结果不一致 |

| 隐私合规 | 语音克隆涉及生物特征数据，需符合 GDPR 等法规 |

elevenlabs tts voice-synthesis whatsapp multilingual audio-generation ai-voice emotional-speech

Elevenlabs Tts 内容

references文件夹

手动下载zip · 8.2 kB

audio-tags.mdtext/markdown

请选择文件