使用说明

核心用法

ElevenLabs TTS 是一款面向 OpenClaw 平台的文本转语音技能，核心能力围绕 ElevenLabs v3 模型 的情感音频标签系统展开。用户通过方括号标签（如 [excited]]、]、[whispers]]、]、[laughs]]）直接控制语音的情绪、语速、音量和反应，无需复杂的 SSML 或后期处理。

典型工作流程：
1. 在 openclaw.json 配置 API Key 和语音参数
2. 使用音频标签编写带情感的文本（支持 70+ 语言，含希伯来语选择性元音标注）
3. 调用 tts 工具生成 MP3
4. 通过内置 audio_convert.py 转换为 Opus 格式（WhatsApp 兼容）
5. 使用 message 工具发送语音消息

进阶功能：长音频分段合成后拼接、多角色对话单条生成、唱歌模式（Creative 稳定性）。

显著优点

情感控制精准：v3 模型的音频标签系统是目前消费级 TTS 中最直观的情感控制方式，1-2 个标签即可实现从耳语到尖叫的动态变化
多语言深度优化：希伯来语支持选择性 nikud（元音点）标注，解决辅音文字发音歧义；70+ 语言均支持完整标签控制
WhatsApp 原生适配：内置 Opus 转换工具解决跨平台兼容问题，支持 Android/iOS 双端播放及语音转文字
零后期制作：标签 + 标点组合可直接输出播客、有声书、游戏配音级别的成品音频

潜在缺点与局限性

v3 非确定性输出：相同文本多次生成结果不同，需多次采样挑选，不适合需要严格一致性的场景
长度限制严格：>800 字符后音质下降，长内容需手动分段拼接，增加工作流复杂度
标签过度使用反效果：超过 2 个标签/句子会导致机械感，需要用户掌握"少即是多"的艺术
PVC 语音不支持：个人语音克隆（PVC）未针对 v3 优化，仅 IVC/预制语音可用
SSML 废弃：传统 break 标签完全不支持，迁移成本高

适合的目标群体

内容创作者：YouTube 配音、TikTok 短剧、播客制作，需要快速产出情感丰富的人声
多语言运营团队：跨境电商、国际社群运营，需批量生成本地化语音消息
教育工作者：语言学习材料制作，利用标签演示语调变化
开发者/产品经理：快速原型语音交互功能，验证对话流程

使用风险

API 成本累积：ElevenLabs 按字符计费，长内容分段生成会显著增加调用次数
临时文件堆积：audio_convert.py 使用 delete=False 模式，异常退出时可能残留 /tmp/tts-xxx// 文件
情感标签误读：v3 对标签的响应因语音而异，需针对选定声音反复测试
数据隐私：文本内容发送至 ElevenLabs 云端，敏感信息（医疗、金融、个人身份）不应通过此技能处理

安全解读

核心功能

ElevenLabs TTS 是一款基于 ElevenLabs v3 模型的专业级文本转语音工具，通过创新的音频情感标签系统实现高度表现力的语音合成。用户只需在文本中嵌入 [excited]、[whispers]、[sighs] 等标签，即可精确控制语调、情绪和节奏，生成媲美真人演绎的语音内容。

显著优势

1. 情感控制精准度行业领先

独创的音频标签系统支持 30+ 种情绪与表达标签
多标签组合可实现细腻的情绪过渡（如 [nervous][whispers]）
支持多角色对话生成，自带 [interrupting]、[overlapping] 等对话标签

2. 多语言与方言优化

覆盖 70+ 语言，包含希伯来语选择性标音（nikud）指南
针对中文、希伯来语等复杂拼音系统提供专业发音优化建议
支持跨语言角色音保持

3. 生产级工作流集成

内置 WhatsApp 语音消息完整工作流：TTS → Opus 格式转换 → 发送
提供长音频分段合成与自动拼接工具（适合播客制作）
音频转换工具支持 MP3/WAV/Opus 互转

4. 音质与稳定性

采用 v3 模型（alpha），非确定性生成支持多次采样选优
三种稳定性模式（Creative/Natural/Robust）适配不同场景
语音克隆（IVC）与预制语音库双轨支持

局限性与注意事项

模型限制：v3 为 alpha 版本，不支持 SSML；超长文本（>800字符）会导致音质下降
标签滥用风险：过度使用标签会产生机械感，建议每句 1-2 个标签
成本因素：ElevenLabs API 按字符计费，高频使用需预算规划
WhatsApp 兼容：Android 设备必须转换为 Opus 格式，需额外处理步骤

适用人群

内容创作者：播客、有声书、短视频配音
开发者：需集成多语言语音交互的产品团队
营销运营：批量生成个性化语音消息、客服通知
语言学习者：制作带情感标记的听力材料

常规风险提示

API 密钥需用户自行配置，存在泄露风险（建议环境变量管理）
语音克隆需遵守 ElevenLabs 使用政策及当地肖像权法规
希伯来语等右至左语言需特别注意标音符号的位置准确性
情感标签效果因声音模型而异，建议预测试

content-media productivity api automation mobile multilingual ai-voice

elevenlabs-tts 内容

lib文件夹

references文件夹

手动下载zip · 10.7 kB

audio_convert.pytext/plain

请选择文件