Elevenlabs Tts

🎙️ 情感语音合成,为文字注入灵魂

ai榜 #2

通过 ElevenLabs v3 API 生成富有情感的 AI 语音,支持 70+ 语言、音频情绪标签、多角色对话,专为 WhatsApp 语音消息优化。

收藏
20.1k
安装
6.1k
版本
1.4.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

ElevenLabs TTS 技能是 OpenClaw 平台上集成度最高的语音合成解决方案,核心基于 ElevenLabs v3(alpha)模型,该版本是目前唯一支持音频情绪标签(audio tags)的 TTS 引擎,可实现远超传统 TTS 的情感表达能力。

核心用法:用户通过 [nervous][whispers][laughs] 等标签在文本中嵌入情绪指令,生成具有戏剧性停顿、喘息、笑声等自然人类特征的语音。支持 70+ 语言,包括希伯来语(需添加 nikud 元音符号以保证发音准确性)、西班牙语等多语种内容。配置仅需在 openclaw.json 中设置 API Key、Voice ID 及模型参数。

显著优点

  • 情感表现力业界领先,支持 20+ 种音频标签组合使用
  • 多角色对话可在单次生成中完成(如 Jessica/Chris 对话示例)
  • 针对 WhatsApp 提供完整工作流:MP3 → Opus 转换解决跨平台兼容性问题
  • 长文本支持分段生成后合并,适合播客制作

潜在局限性

  • v3 为非确定性模型,同一文本多次生成结果不同,需人工挑选最佳版本
  • 音频标签对高稳定性设置(>0.7)响应减弱,需在"稳定性"与"表现力"间权衡
  • 单次生成长度超过 800 字符时质量下降,长内容需手动分段
  • PVC(Professional Voice Clone)尚未针对 v3 优化,建议使用 IVC 或预制声音
  • SSML 标签完全不支持

适合人群:内容创作者、播客制作人、多语言客服自动化、游戏/影视配音预演、WhatsApp 营销自动化用户。

常规风险

  • API 调用成本:ElevenLabs 按字符计费,高频使用需监控用量
  • 语音克隆伦理风险:IVC 功能需确保拥有原始音频版权
  • WhatsApp 发送限制:需严格遵守平台反垃圾邮件政策
  • 音频截断问题:需在文本末尾添加 [pause] 防止最后一个词被切断

Elevenlabs Tts 内容

暂无文件树

手动下载zip · 8.3 kB
contentapplication/octet-stream
请选择文件