核心用法
ElevenLabs TTS 是基于 ElevenLabs API v3 的语音合成工具,核心能力在于情感音频标签(Audio Tags)——通过 [excited]、[whispers]、[laughs] 等标签直接控制语音的情绪、语速、音量及反应,无需复杂参数调节。
典型工作流程:
1. 配置 ELEVENLABS_API_KEY 和 ffmpeg
2. 在 openclaw.json 中设置语音参数(voiceId、stability、speed 等)
3. 使用 tts 工具生成音频,文本中嵌入音频标签控制表达
4. 通过 ffmpeg 将 MP3 转换为 Opus(WhatsApp 兼容性必需)
5. 使用 message 工具发送语音消息
音频标签最佳实践: 每句 1-2 个标签,置于情感转折点;标签具有持续性,无需重复;结合标点符号(省略号、破折号、大写)增强效果。
显著优点
- 情感表达细腻:v3 模型原生支持 30+ 音频标签,可生成带有笑声、叹息、耳语、停顿等自然反应的语音,远超市面常规 TTS
- 多语言支持:70+ 语言,包括希伯来语、阿拉伯语等复杂语种
- WhatsApp 深度集成:完整文档覆盖格式转换(MP3→Opus)、Android/iOS 兼容性、音频截断修复等真实场景问题
- 长内容处理:提供分片生成 + ffmpeg 拼接方案,支持播客级长音频
- 多角色对话:单条生成可处理多人对话,支持
[interrupting]、[overlapping]等对话标签
潜在缺点与局限性
- API 依赖:必须持有 ElevenLabs API key,存在成本门槛(按字符计费)
- 非确定性输出:相同输入可能产生不同结果,需多次生成择优
- 长度限制:>800 字符质量下降,>10,000 字符硬截断
- 标签可靠性参差:
[explosion]、[French accent]等效果因语音而异,需测试验证 - 无 SSML 支持:v3 不支持标准 SSML 标签,迁移成本高
- 稳定性权衡:低 stability(0.3-0.5)提升标签响应但增加幻觉风险
适合人群
- 内容创作者:播客、有声书、短视频配音,需快速产出情感丰富的语音
- 多语言运营者:WhatsApp 商业账号需本地化语音消息
- 开发者/自动化用户:通过 OpenClaw 集成,构建语音消息自动化流程
常规风险
| 风险项 | 说明 |
|--------|------|
| API 密钥泄露 | `ELEVENLABS_API_KEY` 暴露可能导致账户滥用和费用损失 |
| 成本失控 | 长文本、高频调用、多次重生成均消耗 credits |
| 版权问题 | 商业使用需确认 ElevenLabs 语音授权范围,IVC 克隆需获得本人同意 |
| 输出质量波动 | v3 非确定性可能导致生产环境结果不一致 |
| 隐私合规 | 语音克隆涉及生物特征数据,需符合 GDPR 等法规 |