核心用法
ElevenLabs TTS 是一个面向情感化语音合成的专业工具,基于 ElevenLabs v3 模型,通过 [excited]、[whispers]、[laughs] 等音频标签实现细腻的情绪控制。用户可在 openclaw.json 中配置 API 密钥、语音 ID 及稳定性参数,随后通过 tts 工具生成语音,并结合 audio_convert.py 完成格式转换。
典型工作流:
1. 撰写带音频标签的文本(每句 1-2 个标签)
2. 调用 tts 生成 MP3
3. 用内置转换器转为 Opus 格式(WhatsApp 必需)
4. 通过 message 工具发送语音消息
显著优点
情感细腻度行业领先:v3 模型原生支持音频标签,可实现从 [soft] 低语到 [panicking] 恐慌的梯度情绪,远超市面主流 TTS 的单调输出。
多语言支持完善:覆盖 70+ 语言,特别针对希伯来语优化选择性 nikud(元音点)功能,解决外语名、性数格歧义等发音难题。
实用工具链完整:内置音频分割、拼接、格式转换工具,支持长文本分段生成后无缝合并,满足播客等长内容需求。
WhatsApp 生态适配:自动处理 Opus 转换,确保 iOS/Android 全兼容并支持语音转文字按钮。
潜在缺点与局限性
非确定性输出:同一文本多次生成结果不同,需人工筛选最优版本,批量生产场景效率受限。
长度瓶颈明显:800 字符为质量拐点,超长文本需手动分段,增加工作流复杂度。
标签滥用风险:过度堆砌标签会导致机械感,需配合文本语义精心设计,学习成本较高。
硬件与成本门槛:ElevenLabs API 按字符计费,高频使用成本显著;v3 处于 alpha 阶段,稳定性参数仅支持 0.0/0.5/1.0 三档,精细调节空间不足。
适合人群
- 内容创作者(播客、有声书、游戏配音)
- 多语言运营团队(需希伯来语、阿拉伯语等小语种支持)
- WhatsApp 自动化营销/客服场景
- 对情感表达有极致要求的叙事类项目
常规风险
API 密钥泄露:配置文件中明文存储密钥,共享环境需额外加密措施。
内容合规风险:语音克隆技术可能被滥用生成深度伪造内容,需遵守 ElevenLabs 平台审核政策。
稳定性漂移:Creative 模式(0.0)下模型可能"幻觉"生成未输入文本,关键场景建议配合 Natural 模式校验。