ElevenLabs TTS 技能是 OpenClaw 平台上集成度最高的语音合成解决方案,核心基于 ElevenLabs v3(alpha)模型,该版本是目前唯一支持音频情绪标签(audio tags)的 TTS 引擎,可实现远超传统 TTS 的情感表达能力。
核心用法:用户通过 [nervous]、[whispers]、[laughs] 等标签在文本中嵌入情绪指令,生成具有戏剧性停顿、喘息、笑声等自然人类特征的语音。支持 70+ 语言,包括希伯来语(需添加 nikud 元音符号以保证发音准确性)、西班牙语等多语种内容。配置仅需在 openclaw.json 中设置 API Key、Voice ID 及模型参数。
显著优点:
- 情感表现力业界领先,支持 20+ 种音频标签组合使用
- 多角色对话可在单次生成中完成(如 Jessica/Chris 对话示例)
- 针对 WhatsApp 提供完整工作流:MP3 → Opus 转换解决跨平台兼容性问题
- 长文本支持分段生成后合并,适合播客制作
潜在局限性:
- v3 为非确定性模型,同一文本多次生成结果不同,需人工挑选最佳版本
- 音频标签对高稳定性设置(>0.7)响应减弱,需在"稳定性"与"表现力"间权衡
- 单次生成长度超过 800 字符时质量下降,长内容需手动分段
- PVC(Professional Voice Clone)尚未针对 v3 优化,建议使用 IVC 或预制声音
- SSML 标签完全不支持
适合人群:内容创作者、播客制作人、多语言客服自动化、游戏/影视配音预演、WhatsApp 营销自动化用户。
常规风险:
- API 调用成本:ElevenLabs 按字符计费,高频使用需监控用量
- 语音克隆伦理风险:IVC 功能需确保拥有原始音频版权
- WhatsApp 发送限制:需严格遵守平台反垃圾邮件政策
- 音频截断问题:需在文本末尾添加
[pause]防止最后一个词被切断