核心用法
ElevenLabs TTS 是基于 ElevenLabs v3 模型的文本转语音技能,专为 OpenClaw 生态深度优化。用户通过 [emotional tag] 语法控制语音情感、语调与节奏,支持 70+ 语言及多口音合成。
关键功能:
- 情感音频标签:用
[excited]、[whispers]、[nervous]等 30+ 标签精确控制情绪表达 - WhatsApp 原生集成:自动转码为 Opus 格式,直接发送语音消息
- 多语言支持:希伯来语、西班牙语等语言保持情感标签控制
- 长文本处理:支持 10,000 字符上限,推荐分段 <800 字符保证音质
配置要求:需 ElevenLabs API Key(sk_xxx)及系统 ffmpeg。在 openclaw.json 中配置 messages.tts 节点,选择 eleven_v3 模型(唯一支持音频标签的版本)。
显著优点
1. 情感细腻度行业领先:v3 的非确定性生成机制让同一文本多次生成略有差异,配合 0.5 稳定性设置可获得极具表现力的朗读效果
2. 工作流闭环:从生成到 WhatsApp 发送一站式完成,支持 MP3→Opus 自动转码,解决跨平台兼容问题
3. 多角色对话:单条文本内通过标签切换实现多人对话,支持 [interrupting]、[overlapping] 等戏剧化标签
潜在局限
- 非确定性输出:相同参数可能产生不同结果,需多次生成择优
- 标签滥用风险:过度使用标签会导致机械感,官方建议每句 1-2 个标签
- SSML 不支持:无法使用传统 SSML break 标签,需依赖
[pause]等专有标签 - 成本敏感:ElevenLabs API 按字符计费,长文本/多语言场景成本较高
- PVC 语音兼容性差:Instant Voice Clone(IVC)优于 Professional Voice Clone(PVC)
适合人群
- 内容创作者:播客、有声书、短视频配音
- 开发者/自动化工程师:需要 WhatsApp 语音消息自动化的场景
- 多语言用户:希伯来语、阿拉伯语等小语种情感 TTS 需求
- 游戏/叙事设计师:需要角色对话与情绪控制的沉浸式音频
常规风险
- API 密钥泄露:
ELEVENLABS_API_KEY需妥善保管,避免硬编码提交 - 版权与肖像权:克隆他人声音可能涉及法律风险,ElevenLabs 要求声纹样本授权
- 音频滥用:高仿真语音可能被用于诈骗,需遵守平台使用政策
- 质量衰减:超长文本(>800字符)会导致语音一致性下降
- 临时文件残留:TTS 生成文件存于
/tmp/openclaw/tts-*/,需手动清理或配置自动删除