Elevenlabs Tts

🎙️ 情感语音合成 · 一键发送 WhatsApp

ElevenLabs 第三代语音合成引擎,支持情感标签与多语言,生成逼真 AI 语音并直接发送 WhatsApp 语音消息

收藏
22.7k
安装
6.2k
版本
2.4.0
CLS 安全性认证2026-05-09
点击查看完整报告 >

使用说明

核心用法

ElevenLabs TTS 是基于 ElevenLabs v3 模型的文本转语音技能,专为 OpenClaw 生态深度优化。用户通过 [emotional tag] 语法控制语音情感、语调与节奏,支持 70+ 语言及多口音合成。

关键功能

  • 情感音频标签:用 [excited][whispers][nervous] 等 30+ 标签精确控制情绪表达
  • WhatsApp 原生集成:自动转码为 Opus 格式,直接发送语音消息
  • 多语言支持:希伯来语、西班牙语等语言保持情感标签控制
  • 长文本处理:支持 10,000 字符上限,推荐分段 <800 字符保证音质

配置要求:需 ElevenLabs API Key(sk_xxx)及系统 ffmpeg。在 openclaw.json 中配置 messages.tts 节点,选择 eleven_v3 模型(唯一支持音频标签的版本)。

显著优点

1. 情感细腻度行业领先:v3 的非确定性生成机制让同一文本多次生成略有差异,配合 0.5 稳定性设置可获得极具表现力的朗读效果
2. 工作流闭环:从生成到 WhatsApp 发送一站式完成,支持 MP3→Opus 自动转码,解决跨平台兼容问题

3. 多角色对话:单条文本内通过标签切换实现多人对话,支持 [interrupting][overlapping] 等戏剧化标签

潜在局限

  • 非确定性输出:相同参数可能产生不同结果,需多次生成择优
  • 标签滥用风险:过度使用标签会导致机械感,官方建议每句 1-2 个标签
  • SSML 不支持:无法使用传统 SSML break 标签,需依赖 [pause] 等专有标签
  • 成本敏感:ElevenLabs API 按字符计费,长文本/多语言场景成本较高
  • PVC 语音兼容性差:Instant Voice Clone(IVC)优于 Professional Voice Clone(PVC)

适合人群

  • 内容创作者:播客、有声书、短视频配音
  • 开发者/自动化工程师:需要 WhatsApp 语音消息自动化的场景
  • 多语言用户:希伯来语、阿拉伯语等小语种情感 TTS 需求
  • 游戏/叙事设计师:需要角色对话与情绪控制的沉浸式音频

常规风险

  • API 密钥泄露ELEVENLABS_API_KEY 需妥善保管,避免硬编码提交
  • 版权与肖像权:克隆他人声音可能涉及法律风险,ElevenLabs 要求声纹样本授权
  • 音频滥用:高仿真语音可能被用于诈骗,需遵守平台使用政策
  • 质量衰减:超长文本(>800字符)会导致语音一致性下降
  • 临时文件残留:TTS 生成文件存于 /tmp/openclaw/tts-*/,需手动清理或配置自动删除

安全解读

核心功能

ElevenLabs TTS 是 OpenClaw 生态中的文本转语音技能文档,完整覆盖 ElevenLabs v3 API 的集成方案。核心能力是情感化语音合成——通过 [excited][whispers][laughs] 等 30+ 音频标签,让 AI 语音具备真实人类的情绪起伏、语气和反应。

显著优点

1. 情感标签系统独特:v3 是全球首个支持「音频标签」控制情绪的 TTS 模型,可实现从「紧张低语」到「兴奋大笑」的自然过渡,无需复杂 SSML
2. 多语言原生支持:70+ 语言,同一声音可跨语言保持音色一致性,示例包含希伯来语、西班牙语等真实用例

3. WhatsApp 完整工作流:从 TTS 生成 → ffmpeg 转码(MP3→Opus)→ 发送到 WhatsApp 的全链路文档,解决移动端兼容性痛点

4. 非确定性生成优势:同一文本可多次生成选择最优版本,避免机械重复感

潜在局限与风险

| 问题 | 影响 | 应对 |
|------|------|------|
| 依赖 ElevenLabs 商业 API | 成本、网络可用性、隐私数据出境 | 需自行评估 SaaS 服务商合规性 |
| 音频标签需反复调试 | 过度使用会「机械感」,稳定性设置影响响应度 | 文档提供详细最佳实践 |
| 长文本质量衰减 | >800 字符需分段处理 | 提供 ffmpeg 拼接方案 |
| API 密钥管理 | 泄露风险 | 强制环境变量配置 |

适合人群

  • 内容创作者(播客、有声书、视频配音)
  • 需要多语言客服语音的企业
  • WhatsApp 自动化运营者
  • 对「情感化 AI 语音」有品质要求的开发者

常规风险

  • 成本不可控:按字符计费,情感标签增加字符数但未计入有效语音时长
  • 版权灰色地带:IVC(即时声音克隆)可能涉及他人声纹权益
  • 平台锁定:v3 标签为 ElevenLabs 私有格式,迁移成本高

技术亮点

文档深度优于普通 API 文档:包含「稳定性模式」调参(Creative/Natural/Robust)、「声音-标签匹配」原则、移动端音频格式矩阵等工程细节,体现生产环境经验沉淀。

Elevenlabs Tts 内容

references文件夹
手动下载zip · 8.5 kB
audio-tags.mdtext/markdown
请选择文件