使用说明

核心用法

ElevenLabs Speech-to-Text 是一款基于 ElevenLabs Scribe API 的语音转文本工具，提供三种主要输入方式：本地文件批量处理、URL 实时流和麦克风实时输入。脚本封装为 Shell 接口，底层依赖 Python 和 ffmpeg 处理音视频格式。

基础命令结构：

{baseDir}/scripts/transcribe.sh <file> [options]    # 批量模式
{baseDir}/scripts/transcribe.sh --url <stream>       # 流式模式  
{baseDir}/scripts/transcribe.sh --mic               # 麦克风模式

关键功能选项：

--diarize：说话人分离，识别不同说话者
--json：输出带时间戳的完整 JSON 结构
--events：标记笑声、音乐、掌声等音频事件
--partials：实时模式显示中间结果
--quiet：静默模式，适合 AI Agent 调用

输出格式： 默认纯文本，--json 时返回结构化数据包含 words 数组（每个词的起止时间、说话人 ID）。

显著优点

1. 多语言支持：覆盖 90+ 种语言，自动检测语言并返回置信度
2. 格式兼容性广：支持 3GB/10小时以内的 MP3/WAV/M4A/FLAC/OGG 等音频，以及 MP4/AVI/MKV 等视频直接提取
3. 实时场景完善：流媒体 URL 和麦克风输入均可实时转录，延迟可控
4. 专业级标注：说话人分离（diarization）和音频事件标记能力超越基础 ASR 工具
5. Agent 友好：--quiet 模式仅输出转录内容到 stdout，便于脚本管道化处理

潜在局限

1. 商业 API 依赖：必须持有 ElevenLabs API Key，按用量计费，高频使用成本需评估
2. 网络强依赖：所有处理均走云端 API，离线环境无法使用
3. 隐私边界：音频数据上传至第三方服务器，敏感会议/医疗场景需合规审查
4. 本地资源开销：ffmpeg 和 Python 依赖必须预装，首次运行自动安装 Python 包可能延迟
5. 流控限制：未明确标注速率限制，大文件或高频实时流可能触发限流

适合人群

内容创作者：播客、视频字幕自动化生成
会议效率工具用户：需要说话人分离的会议纪要场景
多语言团队：跨国会议实时翻译预处理
AI Agent 开发者：构建语音交互机器人，需 --mic --quiet 模式获取用户输入

常规风险

| 风险类型 | 说明 | 缓解建议 |

|---------|------|---------|

| API 密钥泄露 | `ELEVENLABS_API_KEY` 环境变量暴露 | 使用密钥管理服务，避免 hardcode |

| 数据传输隐私 | 音频上传至 ElevenLabs 云端 | 确认服务条款，敏感内容考虑本地 ASR 替代方案 |

| 成本失控 | 长音频/高频实时流费用累积 | 设置 API 用量告警，长文件优先用批量模式 |

| ffmpeg 安全性 | 处理不可信视频文件时潜在漏洞 | 隔离运行环境，限制输入文件来源 |

安全解读

核心功能

ElevenLabs Transcribe 是由全球领先的AI语音技术公司ElevenLabs官方提供的语音转文字解决方案，集成于其Scribe产品。该Skill支持三大核心场景：

1. 批量转录：本地音频文件（MP3/WAV/M4A等）快速转文字
2. 实时流式：从URL（直播电台、播客）、麦克风或本地文件实时转录
3. 智能分析：说话人分离（diarization）、音频事件标记（笑声/音乐/掌声）、逐字时间戳

显著优势

准确性领先：ElevenLabs Scribe采用自研ASR模型，在多个基准测试中表现优异
多语言覆盖：支持90+语言，自动语言检测
企业级功能：说话人识别、JSON结构化输出、安静模式适配AI Agent
格式兼容广：音频/视频格式全面覆盖，单文件支持3GB/10小时
官方背书：T1级可信来源，供应链安全（SHA256哈希锁定）

局限性与注意事项

| 方面 | 说明 |

|------|------|

| **成本** | 依赖ElevenLabs API，需付费订阅（免费额度有限）|

| **网络依赖** | 所有处理需联网，无离线模式 |

| **环境配置** | 需要ffmpeg和Python 3.8+，首次运行自动安装依赖 |

| **隐私边界** | 音频上传至ElevenLabs云端处理，敏感场景需谨慎 |

适合人群

内容创作者：播客、视频字幕生成
企业会议：多说话人会议记录与纪要整理
开发者/Agent构建者：需要高质量语音输入接口的AI应用
媒体监测：实时直播流文字化监控

常规风险

API密钥泄露风险（需妥善保管ELEVENLABS_API_KEY）
大文件上传超时或网络中断
实时流式模式受网络延迟影响

安全认证亮点

S+顶级评级：94分，通过全部6维安全检测
零漏洞发现：无危险函数、无敏感信息泄露、无恶意依赖
隐私合规：GDPR/CCPA通过，仅从环境变量读取配置

speech-to-text transcription elevenlabs realtime diarization multilingual audio-processing streaming voice-input

Elevenlabs Transcribe 内容

scripts文件夹

手动下载zip · 6.9 kB

requirements.txttext/plain

请选择文件