使用说明

核心用法

ElevenLabs TTS 是基于 ElevenLabs v3 模型的文本转语音技能，专为 OpenClaw 生态深度优化。用户通过 [emotional tag] 语法控制语音情感、语调与节奏，支持 70+ 语言及多口音合成。

关键功能：

情感音频标签：用 [excited]、[whispers]、[nervous] 等 30+ 标签精确控制情绪表达
WhatsApp 原生集成：自动转码为 Opus 格式，直接发送语音消息
多语言支持：希伯来语、西班牙语等语言保持情感标签控制
长文本处理：支持 10,000 字符上限，推荐分段 <800 字符保证音质

配置要求：需 ElevenLabs API Key（sk_xxx）及系统 ffmpeg。在 openclaw.json 中配置 messages.tts 节点，选择 eleven_v3 模型（唯一支持音频标签的版本）。

显著优点

1. 情感细腻度行业领先：v3 的非确定性生成机制让同一文本多次生成略有差异，配合 0.5 稳定性设置可获得极具表现力的朗读效果
2. 工作流闭环：从生成到 WhatsApp 发送一站式完成，支持 MP3→Opus 自动转码，解决跨平台兼容问题
3. 多角色对话：单条文本内通过标签切换实现多人对话，支持 [interrupting]、[overlapping] 等戏剧化标签

潜在局限

非确定性输出：相同参数可能产生不同结果，需多次生成择优
标签滥用风险：过度使用标签会导致机械感，官方建议每句 1-2 个标签
SSML 不支持：无法使用传统 SSML break 标签，需依赖 [pause] 等专有标签
成本敏感：ElevenLabs API 按字符计费，长文本/多语言场景成本较高
PVC 语音兼容性差：Instant Voice Clone（IVC）优于 Professional Voice Clone（PVC）

适合人群

内容创作者：播客、有声书、短视频配音
开发者/自动化工程师：需要 WhatsApp 语音消息自动化的场景
多语言用户：希伯来语、阿拉伯语等小语种情感 TTS 需求
游戏/叙事设计师：需要角色对话与情绪控制的沉浸式音频

常规风险

API 密钥泄露：ELEVENLABS_API_KEY 需妥善保管，避免硬编码提交
版权与肖像权：克隆他人声音可能涉及法律风险，ElevenLabs 要求声纹样本授权
音频滥用：高仿真语音可能被用于诈骗，需遵守平台使用政策
质量衰减：超长文本（>800字符）会导致语音一致性下降
临时文件残留：TTS 生成文件存于 /tmp/openclaw/tts-*/，需手动清理或配置自动删除

安全解读

核心功能

ElevenLabs TTS 是 OpenClaw 生态中的文本转语音技能文档，完整覆盖 ElevenLabs v3 API 的集成方案。核心能力是情感化语音合成——通过 [excited]、[whispers]、[laughs] 等 30+ 音频标签，让 AI 语音具备真实人类的情绪起伏、语气和反应。

显著优点

1. 情感标签系统独特：v3 是全球首个支持「音频标签」控制情绪的 TTS 模型，可实现从「紧张低语」到「兴奋大笑」的自然过渡，无需复杂 SSML
2. 多语言原生支持：70+ 语言，同一声音可跨语言保持音色一致性，示例包含希伯来语、西班牙语等真实用例
3. WhatsApp 完整工作流：从 TTS 生成 → ffmpeg 转码（MP3→Opus）→ 发送到 WhatsApp 的全链路文档，解决移动端兼容性痛点
4. 非确定性生成优势：同一文本可多次生成选择最优版本，避免机械重复感

潜在局限与风险

| 问题 | 影响 | 应对 |

|------|------|------|

| 依赖 ElevenLabs 商业 API | 成本、网络可用性、隐私数据出境 | 需自行评估 SaaS 服务商合规性 |

| 音频标签需反复调试 | 过度使用会「机械感」，稳定性设置影响响应度 | 文档提供详细最佳实践 |

| 长文本质量衰减 | >800 字符需分段处理 | 提供 ffmpeg 拼接方案 |

| API 密钥管理 | 泄露风险 | 强制环境变量配置 |

适合人群

内容创作者（播客、有声书、视频配音）
需要多语言客服语音的企业
WhatsApp 自动化运营者
对「情感化 AI 语音」有品质要求的开发者

常规风险

成本不可控：按字符计费，情感标签增加字符数但未计入有效语音时长
版权灰色地带：IVC（即时声音克隆）可能涉及他人声纹权益
平台锁定：v3 标签为 ElevenLabs 私有格式，迁移成本高

技术亮点

文档深度优于普通 API 文档：包含「稳定性模式」调参（Creative/Natural/Robust）、「声音-标签匹配」原则、移动端音频格式矩阵等工程细节，体现生产环境经验沉淀。

elevenlabs tts voice-synthesis whatsapp multilingual ai-voice text-to-speech emotional-audio audio-tags opus

Elevenlabs Tts 内容

references文件夹

手动下载zip · 8.5 kB

audio-tags.mdtext/markdown

请选择文件