elevenlabs-tts

🎙️ 电影级情感语音合成引擎

基于 ElevenLabs v3 引擎的多语言情感语音合成技能,支持 70+ 语言、希伯来语元音标注、多角色对话及 WhatsApp 语音消息生成,为内容创作者提供电影级配音能力。

收藏
5k
安装
1.7k
版本
v2.2.0
CLS 安全性认证2026-05-09
点击查看完整报告 >

使用说明

核心用法

ElevenLabs TTS 是一款面向 OpenClaw 平台的文本转语音技能,核心能力围绕 ElevenLabs v3 模型 的情感音频标签系统展开。用户通过方括号标签(如 [excited]]、][whispers]]、][laughs]])直接控制语音的情绪、语速、音量和反应,无需复杂的 SSML 或后期处理。

典型工作流程
1. 在 openclaw.json 配置 API Key 和语音参数

2. 使用音频标签编写带情感的文本(支持 70+ 语言,含希伯来语选择性元音标注)

3. 调用 tts 工具生成 MP3

4. 通过内置 audio_convert.py 转换为 Opus 格式(WhatsApp 兼容)

5. 使用 message 工具发送语音消息

进阶功能:长音频分段合成后拼接、多角色对话单条生成、唱歌模式(Creative 稳定性)。

显著优点

  • 情感控制精准:v3 模型的音频标签系统是目前消费级 TTS 中最直观的情感控制方式,1-2 个标签即可实现从耳语到尖叫的动态变化
  • 多语言深度优化:希伯来语支持选择性 nikud(元音点)标注,解决辅音文字发音歧义;70+ 语言均支持完整标签控制
  • WhatsApp 原生适配:内置 Opus 转换工具解决跨平台兼容问题,支持 Android/iOS 双端播放及语音转文字
  • 零后期制作:标签 + 标点组合可直接输出播客、有声书、游戏配音级别的成品音频

潜在缺点与局限性

  • v3 非确定性输出:相同文本多次生成结果不同,需多次采样挑选,不适合需要严格一致性的场景
  • 长度限制严格:>800 字符后音质下降,长内容需手动分段拼接,增加工作流复杂度
  • 标签过度使用反效果:超过 2 个标签/句子会导致机械感,需要用户掌握"少即是多"的艺术
  • PVC 语音不支持:个人语音克隆(PVC)未针对 v3 优化,仅 IVC/预制语音可用
  • SSML 废弃:传统 break 标签完全不支持,迁移成本高

适合的目标群体

  • 内容创作者:YouTube 配音、TikTok 短剧、播客制作,需要快速产出情感丰富的人声
  • 多语言运营团队:跨境电商、国际社群运营,需批量生成本地化语音消息
  • 教育工作者:语言学习材料制作,利用标签演示语调变化
  • 开发者/产品经理:快速原型语音交互功能,验证对话流程

使用风险

  • API 成本累积:ElevenLabs 按字符计费,长内容分段生成会显著增加调用次数
  • 临时文件堆积audio_convert.py 使用 delete=False 模式,异常退出时可能残留 /tmp/tts-xxx// 文件
  • 情感标签误读:v3 对标签的响应因语音而异,需针对选定声音反复测试
  • 数据隐私:文本内容发送至 ElevenLabs 云端,敏感信息(医疗、金融、个人身份)不应通过此技能处理

安全解读

核心功能

ElevenLabs TTS 是一款基于 ElevenLabs v3 模型的专业级文本转语音工具,通过创新的音频情感标签系统实现高度表现力的语音合成。用户只需在文本中嵌入 [excited][whispers][sighs] 等标签,即可精确控制语调、情绪和节奏,生成媲美真人演绎的语音内容。

显著优势

1. 情感控制精准度行业领先

  • 独创的音频标签系统支持 30+ 种情绪与表达标签
  • 多标签组合可实现细腻的情绪过渡(如 [nervous][whispers]
  • 支持多角色对话生成,自带 [interrupting][overlapping] 等对话标签

2. 多语言与方言优化

  • 覆盖 70+ 语言,包含希伯来语选择性标音(nikud)指南
  • 针对中文、希伯来语等复杂拼音系统提供专业发音优化建议
  • 支持跨语言角色音保持

3. 生产级工作流集成

  • 内置 WhatsApp 语音消息完整工作流:TTS → Opus 格式转换 → 发送
  • 提供长音频分段合成与自动拼接工具(适合播客制作)
  • 音频转换工具支持 MP3/WAV/Opus 互转

4. 音质与稳定性

  • 采用 v3 模型(alpha),非确定性生成支持多次采样选优
  • 三种稳定性模式(Creative/Natural/Robust)适配不同场景
  • 语音克隆(IVC)与预制语音库双轨支持

局限性与注意事项

  • 模型限制:v3 为 alpha 版本,不支持 SSML;超长文本(>800字符)会导致音质下降
  • 标签滥用风险:过度使用标签会产生机械感,建议每句 1-2 个标签
  • 成本因素:ElevenLabs API 按字符计费,高频使用需预算规划
  • WhatsApp 兼容:Android 设备必须转换为 Opus 格式,需额外处理步骤

适用人群

  • 内容创作者:播客、有声书、短视频配音
  • 开发者:需集成多语言语音交互的产品团队
  • 营销运营:批量生成个性化语音消息、客服通知
  • 语言学习者:制作带情感标记的听力材料

常规风险提示

  • API 密钥需用户自行配置,存在泄露风险(建议环境变量管理)
  • 语音克隆需遵守 ElevenLabs 使用政策及当地肖像权法规
  • 希伯来语等右至左语言需特别注意标音符号的位置准确性
  • 情感标签效果因声音模型而异,建议预测试

elevenlabs-tts 内容

lib文件夹
references文件夹
手动下载zip · 10.7 kB
audio_convert.pytext/plain
请选择文件