核心用法
ElevenLabs TTS 是一个专为 OpenClaw 框架设计的 ElevenLabs API 封装工具,主打 v3 模型情绪音频标签 功能。用户可通过 [excited]、[whispers]、[gasps] 等标签直接控制语音的情感表达、节奏和戏剧张力,无需复杂的 SSML 或后期处理。
典型工作流程:
1. 配置 API Key 与语音参数(stability、speed、voiceId)
2. 使用音频标签撰写带情绪提示的文本
3. 生成 MP3 → 转换为 Opus(WhatsApp 必需)→ 发送语音消息
多语言支持:英语、希伯来语、西班牙语等 70+ 语言,标签效果跨语言生效。
---
显著优点
1. 情绪标签系统:相比传统 TTS 的机械输出,v3 的 [nervous]、[laughs]、[pause] 等标签能生成极具表现力的语音,适合讲故事、播客、游戏配音
2. WhatsApp 原生集成:提供完整的 MP3→Opus 转换指引,解决 Android 兼容性痛点,支持语音转文字按钮
3. 多说话人对话:单条文本可嵌入角色名+标签,实现多角色戏剧化对话
4. 非确定性生成:同一文本多次生成结果不同,便于挑选最佳版本
---
潜在缺点与局限性
- 长度敏感:>800 字符后音质下降,需手动分段拼接
- 标签滥用风险:过度堆砌标签(>2 个/句)会导致机械感,需遵循 "1-2 标签/短语" 原则
- 声音匹配限制:轻声细语型 voice 无法有效执行
[shouts],存在物理限制 - 非确定性双刃剑:批量生产场景下难以保证一致性
- SSML 不兼容:v3 完全摒弃 SSML,迁移旧项目需重写
---
适合人群
- 内容创作者:播客、有声书、短视频配音
- 开发者:需为 WhatsApp Bot 添加自然语音交互
- 游戏/互动叙事:多角色对话、动态情绪反馈
- 多语言产品:需统一情绪控制跨语言输出
---
常规风险
| 风险点 | 说明 |
|--------|------|
| API 成本 | ElevenLabs 按字符计费,长内容需分段策略控制成本 |
| 音频截断 | 句尾可能被切断,必须手动添加 `[pause]` 或省略号 |
| 合规风险 | AI 合成语音需遵守平台政策,避免深度伪造滥用 |
| 格式陷阱 | 直接发送 MP3 导致 Android 用户无法播放,必须转 Opus |