使用说明

核心用法

ElevenLabs TTS 是一个面向情感化语音合成的专业工具，基于 ElevenLabs v3 模型，通过 [excited]、[whispers]、[laughs] 等音频标签实现细腻的情绪控制。用户可在 openclaw.json 中配置 API 密钥、语音 ID 及稳定性参数，随后通过 tts 工具生成语音，并结合 audio_convert.py 完成格式转换。

典型工作流：
1. 撰写带音频标签的文本（每句 1-2 个标签）
2. 调用 tts 生成 MP3
3. 用内置转换器转为 Opus 格式（WhatsApp 必需）
4. 通过 message 工具发送语音消息

显著优点

情感细腻度行业领先：v3 模型原生支持音频标签，可实现从 [soft] 低语到 [panicking] 恐慌的梯度情绪，远超市面主流 TTS 的单调输出。

多语言支持完善：覆盖 70+ 语言，特别针对希伯来语优化选择性 nikud（元音点）功能，解决外语名、性数格歧义等发音难题。

实用工具链完整：内置音频分割、拼接、格式转换工具，支持长文本分段生成后无缝合并，满足播客等长内容需求。

WhatsApp 生态适配：自动处理 Opus 转换，确保 iOS/Android 全兼容并支持语音转文字按钮。

潜在缺点与局限性

非确定性输出：同一文本多次生成结果不同，需人工筛选最优版本，批量生产场景效率受限。

长度瓶颈明显：800 字符为质量拐点，超长文本需手动分段，增加工作流复杂度。

标签滥用风险：过度堆砌标签会导致机械感，需配合文本语义精心设计，学习成本较高。

硬件与成本门槛：ElevenLabs API 按字符计费，高频使用成本显著；v3 处于 alpha 阶段，稳定性参数仅支持 0.0/0.5/1.0 三档，精细调节空间不足。

适合人群

内容创作者（播客、有声书、游戏配音）
多语言运营团队（需希伯来语、阿拉伯语等小语种支持）
WhatsApp 自动化营销/客服场景
对情感表达有极致要求的叙事类项目

常规风险

API 密钥泄露：配置文件中明文存储密钥，共享环境需额外加密措施。

内容合规风险：语音克隆技术可能被滥用生成深度伪造内容，需遵守 ElevenLabs 平台审核政策。

稳定性漂移：Creative 模式（0.0）下模型可能"幻觉"生成未输入文本，关键场景建议配合 Natural 模式校验。

安全解读

核心用法

ElevenLabs TTS 是基于 ElevenLabs v3 模型的文字转语音工具，核心特色是通过 [emotion] 等音频标签实现情感驱动的语音合成。用户需在文本中嵌入标签如 [excited]、[whispers]、[sighs] 来控制语调、节奏与情绪，配合标点符号（省略号、破折号、全大写）强化戏剧效果。

配置需设置 elevenlabs.apiKey 与 voiceId，推荐选择 IVC（即时语音克隆）或预制语音以获得最佳标签响应。模型仅支持 eleven_v3，稳定性参数仅接受 0.0（创意）、0.5（自然）、1.0（稳健）三档，创意模式最适合作标签表达。

显著优点

1. 情感表现力：音频标签系统让 AI 语音首次具备"演技"，可实现从低语到尖叫、从紧张到释然的多层次演绎
2. 多语言支持：70+ 语言覆盖，含希伯来语选择性尼库德功能，通过局部元音标注解决发音歧义
3. WhatsApp 集成：内置 MP3→Opus 转换器，解决 Android 兼容性问题，支持语音消息转录
4. 多角色对话：单条文本内可实现多角色交互，支持 [interrupting]、[overlapping] 等对话标签
5. 长音频处理：提供分段生成与拼接工具，适合播客制作

潜在局限

长度敏感：超过800字符后音质一致性下降，需手动分段
非确定性输出：相同文本多次生成结果不同，需批量生成筛选
标签滥用陷阱：每句超过2个标签会显得机械，需配合自然文本语境
SSML 弃用：v3 不支持传统 SSML 断句标签
外部依赖：需系统预装 ffmpeg，API 调用需付费订阅

适合人群

内容创作者（有声书、播客、短视频配音）
多语言应用开发者（尤其希伯来语、阿拉伯语等复杂拼写系统）
WhatsApp 自动化运营者（客服、社群广播）
游戏/互动叙事设计师（多角色对话场景）

常规风险

API 成本：ElevenLabs 按字符计费，长文本需预算规划
音频截断：需在句末添加 [pause] 或省略号防止尾音丢失
版权模糊：IVC 克隆声音可能涉及肖像权争议
T3 来源风险：个人开发者维护，需关注供应链安全更新

elevenlabs tts voice-synthesis multilingual whatsapp emotional-audio hebrew podcast voice-cloning

Elevenlabs Tts 内容

lib文件夹

references文件夹

手动下载zip · 10.6 kB

audio_convert.pytext/plain

请选择文件