使用说明

核心功能

elevenlabs-transcribe 是 ElevenLabs 官方提供的语音转文本（Speech-to-Text）CLI 工具，基于其 Scribe API 构建。该 skill 将 ElevenLabs 业界领先的语音识别能力封装为本地可执行脚本，支持多种输入源和输出格式。

主要用法

| 场景 | 命令示例 |

|------|---------|

| 本地文件批量转录 | `./transcribe.sh audio.mp3` |

| 多说话人会议记录 | `./transcribe.sh meeting.mp3 --diarize` |

| 实时网络流（播客/广播） | `./transcribe.sh --url <stream_url>` |

| 麦克风实时输入 | `./transcribe.sh --mic` |

| 带时间戳的完整数据 | `./transcribe.sh file.wav --json` |

核心参数包括 --diarize（说话人分离）、--lang（语言提示）、--json（结构化输出）、--events（音频事件标记）、--realtime（实时流式）和 --quiet（静默模式，适合 AI Agent 调用）。

显著优点

1. 识别精度高：ElevenLabs Scribe 在多项基准测试中位列第一，支持 99+ 种语言
2. 多模态输入：本地文件、URL 流、麦克风三源合一
3. 专业功能齐全：说话人分离（diarization）、逐词时间戳、音频事件检测（笑声/音乐/掌声）
4. 格式兼容性广：支持 15+ 种音视频格式，最大 3GB/10 小时
5. 实时流式输出：支持 partial transcripts，延迟可控

局限性与风险

| 问题 | 说明 |

|------|------|

| 外部 API 依赖 | 必须联网调用 ElevenLabs 服务，无法本地离线运行 |

| 成本累积 | 按使用量计费，长音频/持续流式会产生显著费用 |

| 数据隐私 | 音频数据上传至 ElevenLabs 服务器，敏感会议需谨慎 |

| 速率限制 | API 存在调用配额，大规模批处理可能受限 |

| 环境依赖 | 需要 ffmpeg 和 Python 3.8+ 环境 |

适合人群

内容创作者：快速生成播客、视频字幕
会议记录员：自动化多说话人会议纪要
开发者/Agent 构建者：通过 --quiet --json 模式集成到自动化流程
多语言工作者：90+ 语言支持，自动语言检测

常规风险提醒

API 密钥安全：ELEVENLABS_API_KEY 需妥善保管，避免硬编码提交
流量费用失控：实时流式模式持续计费，建议设置预算告警
隐私合规：医疗、法律等敏感场景需评估数据处理协议（DPA）

speech-to-text transcription elevenlabs realtime diarization streaming multilingual audio-processing

Elevenlabs Transcribe 内容

手动下载zip · 6.9 kB

requirements.txttext/plain

请选择文件