it will help you to send voice messages to your AI Assistant and also can make it talk

🎙️ AI 语音合成与转录专家

ElevenLabs 官方语音 API 封装,提供高质量 TTS 多音色合成与 Scribe STT 精准转录,支持 99 种语言及说话人分离,适合多语言语音交互场景。

收藏
8.9k
安装
2.7k
版本
1.0.0
CLS 安全性认证2026-06-04
点击查看完整报告 >

使用说明

核心用法

本 Skill 封装 ElevenLabs 官方 API,提供完整的语音处理流水线:

TTS(文本转语音)

  • 调用 elevenlabs_speech.pyElevenLabsClient
  • 支持 7+ 预置高质量 AI 音色(Rachel、Domi、Bella 等),可调节 stability 与 similarity_boost 控制情感表现
  • 默认使用 eleven_turbo_v2_5 模型,多语言场景推荐 eleven_multilingual_v2

STT(语音转文本)

  • 基于 ElevenLabs Scribe 模型,通过 elevenlabs_scribe.pyElevenLabsScribe 类调用
  • 支持 99 种语言自动检测或指定语言代码(如 ara/eng
  • 提供说话人分离(diarization)功能,适用于会议记录等多人场景
  • 兼容 Telegram 语音消息格式(.ogg

典型工作流
接收语音 → Scribe 转录 → LLM 处理 → TTS 合成回复 → 发送语音,实现端到端语音交互。

显著优点

1. 音色质量行业领先:ElevenLabs 以高自然度语音合成著称,情感表达与停顿控制优于多数开源方案
2. 双能力整合:单一 Skill 同时覆盖 TTS 与 STT,无需切换多个服务

3. 多语言深度支持:Scribe 支持 99 种语言,TTS 多语言模型针对非英语优化

4. 参数精细化控制:stability/similarity_boost 可调,voice ID 级音色选择

5. Telegram 生态适配:原生支持 .ogg 语音消息,集成示例完整

潜在缺点与局限性

  • 成本敏感:免费额度有限(TTS 10,000 字符/月),高频使用需付费升级
  • 网络依赖:纯云端 API,无离线能力,延迟受网络质量影响
  • 隐私顾虑:语音数据需上传至 ElevenLabs 服务器,敏感内容需谨慎
  • 文件限制:STT 单文件上限 100MB,超长录音需预处理分割
  • 中文支持:TTS 中文效果较英文略逊,部分音色中文韵律不够自然

适合人群

  • 开发多语言语音助手的创作者
  • 需要高质量播客/有声内容合成的内容生产者
  • 构建 Telegram/WhatsApp 语音交互机器人的开发者
  • 会议转录、访谈记录等语音数据处理场景

常规风险

| 风险类型 | 说明 |
|---------|------|
| API 密钥泄露 | 需妥善保管 `sk-...` 密钥,避免硬编码提交至版本控制 |
| 内容合规 | TTS 生成内容需符合 ElevenLabs 使用政策,禁止深度伪造滥用 |
| 成本失控 | 高并发场景易超出免费额度,建议启用用量监控 |
| 服务可用性 | 依赖第三方云服务,需考虑降级策略(如备用 TTS 方案)|

安全解读

核心功能

ElevenLabs Speech 提供完整的语音处理方案,集成两大核心能力:

Text-to-Speech (TTS):将文本转换为自然流畅的 AI 语音,支持 7+ 种精选音色(Rachel、Domi、Bella 等),可调节 stability(情感稳定性)和 similarity_boost(音色相似度)参数。默认使用 eleven_turbo_v2_5 模型,兼顾速度与质量;eleven_multilingual_v2 针对非英语语言优化。

Speech-to-Text (STT):基于 ElevenLabs Scribe 实现高精度语音转录,支持 99 种语言自动检测,可开启说话人分离(speaker diarization),完美兼容 Telegram 语音消息格式。

显著优点

  • 音质行业领先:ElevenLabs 被公认为当前 TTS 领域第一梯队,情感表达与韵律自然度接近真人
  • 双工一体化:同一 API 密钥同时驱动 TTS 与 STT,降低集成复杂度
  • 多语言原生支持:无需为不同语言切换底层引擎,中文、阿拉伯语等小语种表现优异
  • Telegram 深度适配:.ogg 格式原生支持,文档提供完整"语音消息 → 文本理解 → 语音回复"闭环示例
  • 免费额度友好:TTS 每月 10,000 字符、STT 亦有免费 tier,个人开发者可零成本启动

局限性与风险

  • 成本敏感场景需谨慎:超出免费额度后,高频调用成本高于开源方案(如 Coqui、Piper)
  • 网络强依赖:所有处理必须联网,无法本地离线运行,延迟受国际线路影响
  • 隐私合规待完善:用户语音/文本数据需传输至 ElevenLabs 云端,文档未明确说明 GDPR 同意机制与数据留存政策
  • 依赖版本未锁定:当前未提供 requirements.txt,存在依赖漂移风险
  • 输入验证缺失:文件路径参数未做校验,存在潜在路径遍历隐患

适合人群

  • 多语言内容创作者(播客、有声书、视频配音)
  • Telegram Bot 开发者,需快速实现"语音交互"功能
  • 无障碍工具开发者,需高质量屏幕朗读或语音反馈
  • 原型验证阶段团队,追求音质而非极致成本优化

常规风险

API 密钥泄露风险(需严格保管 sk_ 前缀密钥)、ElevenLabs 服务可用性依赖、以及跨境数据传输合规性需自行评估。

it will help you to send voice messages to your AI Assistant and also can make it talk 内容

scripts文件夹
手动下载zip · 4.8 kB
elevenlabs_scribe.pytext/plain
请选择文件