ElevenLabs Speech-to-Text

🎙️ Scribe v2 智能语音转录,一键生成精准字幕

ElevenLabs Scribe v2 语音转文本,支持90+语言、说话人分离与事件标记,会议/播客转录首选。

收藏
13.1k
安装
4.3k
版本
1.0.0
CLS 安全性认证2026-05-09
点击查看完整报告 >

使用说明

核心用法

ElevenLabs Speech-to-Text 是基于 Scribe v2 模型的语音转录技能,通过简单的 shell 脚本调用 ElevenLabs API,将音频/视频文件转换为文本。支持本地路径直接处理,提供说话人分离(diarization)、语言指定、JSON 时间戳输出、音频事件标记(如笑声、音乐)等进阶功能。

典型工作流

1. 基础转录:直接传入音频文件路径,快速获取纯文本结果
2. 会议场景:启用 --diarize 区分不同说话人,配合 --lang 提升特定语言识别准确度

3. 内容创作:使用 --json 获取带单词级时间戳的结构化数据,便于后期剪辑对齐

4. 多模态分析--events 标记非语音事件,适用于播客、访谈内容理解

显著优点

  • 模型质量:ElevenLabs Scribe v2 在多个公开基准测试中位列第一梯队,尤其在嘈杂环境、口音多样性场景下表现优异
  • 语言覆盖:官方宣称支持 90+ 语言,对中文、日语等非拉丁语系识别效果较 Whisper 有提升
  • 原生说话人分离:无需外部工具链,单一 API 调用即可获得带 speaker 标签的转录结果
  • 格式兼容:内置处理 mp3, m4a, wav, ogg, webm, mp4 等主流音视频格式,减少预处理步骤
  • 事件感知:可选标记笑声、掌声、音乐等非语音事件,提升内容结构化程度

潜在缺点与局限性

  • 成本门槛:ElevenLabs API 按分钟计费,高频使用或长音频场景成本显著高于开源方案(如 Whisper.cpp 本地部署)
  • 网络依赖:必须联网调用云端 API,无法离线使用,敏感音频存在上传合规风险
  • 时间戳精度:单词级时间戳虽可用,但精度受音频质量影响,专业级对齐仍需人工校验
  • 环境配置单一:仅支持环境变量或 JSON 配置文件注入 API Key,缺乏密钥管理工具(如 macOS Keychain)集成

适合人群

  • 内容创作者:播客制作者、视频博主需要快速获取带时间戳的字幕稿
  • 企业用户:会议记录、访谈整理,需原生支持多人说话人分离
  • 多语言团队:跨国会议转录,依赖小语种识别准确度
  • 开发集成:需将转录能力嵌入自动化工作流(CI/CD 生成视频字幕、客服录音分析)

常规风险

| 风险类型 | 说明 | 缓解建议 |
|---------|------|---------|
| **数据隐私** | 音频上传至 ElevenLabs 云端 | 避免处理含 PII、医疗、金融敏感信息的录音;审阅 ElevenLabs DPA 条款 |
| **API 密钥泄露** | 环境变量或明文 JSON 存储 | 使用秘密管理工具(如 1Password CLI、AWS Secrets Manager)注入 |
| **成本失控** | 长音频/高频调用产生意外账单 | 设置用量告警,测试阶段先用短音频验证 |
| **服务可用性** | 依赖第三方云服务商 SLA | 关键业务配置降级方案(本地 Whisper 备用) |
| **输出质量波动** | 专业术语、极快语速识别率下降 | 对关键内容保留人工校对环节 |

安全解读

核心功能与用法

elevenlabs-stt 是一款基于 ElevenLabs Scribe v2 模型的语音转文本 Skill,通过简洁的 Bash 脚本封装官方 API,支持 90+ 种语言的音频转录。核心用法极为直观:

{baseDir}/scripts/transcribe.sh /path/to/audio.mp3          # 基础转录
{baseDir}/scripts/transcribe.sh audio.mp3 --diarize       # 说话人分离
{baseDir}/scripts/transcribe.sh audio.mp3 --json          # 完整时间戳输出

关键参数包括 --diarize(识别不同说话人)、--lang(指定 ISO 语言代码提升准确率)、--events(标记笑声/音乐等音频事件)以及 --json(输出含单词级时间戳的完整 JSON)。支持 mp3、m4a、wav、ogg、webm、mp4 等主流音视频格式,无需本地预处理。

显著优点

1. 模型质量领先:Scribe v2 在语音识别基准测试中表现优异,支持自动语言检测与专业术语识别
2. 功能完整:说话人分离(diarization)与音频事件标记功能通常需额外付费,此处一体化提供

3. 零依赖负担:仅依赖系统命令 curljq,无 Python/Node.js 等运行时环境要求

4. 配置灵活:API Key 可通过环境变量或 JSON 配置文件注入,无硬编码风险

局限性与风险

T3 来源可信度:维护者 clawdbotborges 为个人开发者账号,非 ElevenLabs 官方或知名机构背书。虽代码审计无恶意指标,但需持续关注更新动态,建议在关键场景 Fork 后内部维护。

外部 API 依赖:所有处理均在 ElevenLabs 云端完成,涉及音频数据跨境传输,对隐私敏感场景需评估合规性。API 调用按用量计费,大文件或高频使用可能产生显著成本。

功能边界:仅为 API 薄封装层,无离线处理能力、无本地模型、无批量队列管理,复杂工作流需自行编排。

适合人群

  • 追求转录质量优先于数据本地化的个人用户与中小团队
  • 已有 ElevenLabs 账户、愿为 API 付费换取开箱即用体验的用户
  • 需要快速集成说话人分离功能的播客制作、会议纪要场景

常规风险提示

  • 确保 ELEVENLABS_API_KEY 存储于安全环境变量或密钥管理系统,避免泄露于共享环境
  • 生产环境建议增加输入文件格式与大小验证,防止异常请求
  • 音频文件含敏感内容时,需确认 ElevenLabs 数据处理协议符合所在司法辖区要求

ElevenLabs Speech-to-Text 内容

scripts文件夹
手动下载zip · 3.7 kB
transcribe.shtext/x-shellscript
请选择文件