使用说明

核心用法

本 Skill 封装 ElevenLabs 官方 API，提供完整的语音处理流水线：

TTS（文本转语音）

调用 elevenlabs_speech.py 或 ElevenLabsClient 类
支持 7+ 预置高质量 AI 音色（Rachel、Domi、Bella 等），可调节 stability 与 similarity_boost 控制情感表现
默认使用 eleven_turbo_v2_5 模型，多语言场景推荐 eleven_multilingual_v2

STT（语音转文本）

基于 ElevenLabs Scribe 模型，通过 elevenlabs_scribe.py 或 ElevenLabsScribe 类调用
支持 99 种语言自动检测或指定语言代码（如 ara/eng）
提供说话人分离（diarization）功能，适用于会议记录等多人场景
兼容 Telegram 语音消息格式（.ogg）

典型工作流
接收语音 → Scribe 转录 → LLM 处理 → TTS 合成回复 → 发送语音，实现端到端语音交互。

显著优点

1. 音色质量行业领先：ElevenLabs 以高自然度语音合成著称，情感表达与停顿控制优于多数开源方案
2. 双能力整合：单一 Skill 同时覆盖 TTS 与 STT，无需切换多个服务
3. 多语言深度支持：Scribe 支持 99 种语言，TTS 多语言模型针对非英语优化
4. 参数精细化控制：stability/similarity_boost 可调，voice ID 级音色选择
5. Telegram 生态适配：原生支持 .ogg 语音消息，集成示例完整

潜在缺点与局限性

成本敏感：免费额度有限（TTS 10,000 字符/月），高频使用需付费升级
网络依赖：纯云端 API，无离线能力，延迟受网络质量影响
隐私顾虑：语音数据需上传至 ElevenLabs 服务器，敏感内容需谨慎
文件限制：STT 单文件上限 100MB，超长录音需预处理分割
中文支持：TTS 中文效果较英文略逊，部分音色中文韵律不够自然

适合人群

开发多语言语音助手的创作者
需要高质量播客/有声内容合成的内容生产者
构建 Telegram/WhatsApp 语音交互机器人的开发者
会议转录、访谈记录等语音数据处理场景

常规风险

| 风险类型 | 说明 |

|---------|------|

| API 密钥泄露 | 需妥善保管 `sk-...` 密钥，避免硬编码提交至版本控制 |

| 内容合规 | TTS 生成内容需符合 ElevenLabs 使用政策，禁止深度伪造滥用 |

| 成本失控 | 高并发场景易超出免费额度，建议启用用量监控 |

| 服务可用性 | 依赖第三方云服务，需考虑降级策略（如备用 TTS 方案）|

安全解读

核心功能

ElevenLabs Speech 提供完整的语音处理方案，集成两大核心能力：

Text-to-Speech (TTS)：将文本转换为自然流畅的 AI 语音，支持 7+ 种精选音色（Rachel、Domi、Bella 等），可调节 stability（情感稳定性）和 similarity_boost（音色相似度）参数。默认使用 eleven_turbo_v2_5 模型，兼顾速度与质量；eleven_multilingual_v2 针对非英语语言优化。

Speech-to-Text (STT)：基于 ElevenLabs Scribe 实现高精度语音转录，支持 99 种语言自动检测，可开启说话人分离（speaker diarization），完美兼容 Telegram 语音消息格式。

显著优点

音质行业领先：ElevenLabs 被公认为当前 TTS 领域第一梯队，情感表达与韵律自然度接近真人
双工一体化：同一 API 密钥同时驱动 TTS 与 STT，降低集成复杂度
多语言原生支持：无需为不同语言切换底层引擎，中文、阿拉伯语等小语种表现优异
Telegram 深度适配：.ogg 格式原生支持，文档提供完整"语音消息 → 文本理解 → 语音回复"闭环示例
免费额度友好：TTS 每月 10,000 字符、STT 亦有免费 tier，个人开发者可零成本启动

局限性与风险

成本敏感场景需谨慎：超出免费额度后，高频调用成本高于开源方案（如 Coqui、Piper）
网络强依赖：所有处理必须联网，无法本地离线运行，延迟受国际线路影响
隐私合规待完善：用户语音/文本数据需传输至 ElevenLabs 云端，文档未明确说明 GDPR 同意机制与数据留存政策
依赖版本未锁定：当前未提供 requirements.txt，存在依赖漂移风险
输入验证缺失：文件路径参数未做校验，存在潜在路径遍历隐患

适合人群

多语言内容创作者（播客、有声书、视频配音）
Telegram Bot 开发者，需快速实现"语音交互"功能
无障碍工具开发者，需高质量屏幕朗读或语音反馈
原型验证阶段团队，追求音质而非极致成本优化

常规风险

API 密钥泄露风险（需严格保管 sk_ 前缀密钥）、ElevenLabs 服务可用性依赖、以及跨境数据传输合规性需自行评估。

text-to-speech speech-to-text elevenlabs voice-synthesis transcription multilingual telegram-integration ai-voice

it will help you to send voice messages to your AI Assistant and also can make it talk 内容

scripts文件夹

手动下载zip · 4.8 kB

elevenlabs_scribe.pytext/plain

请选择文件