elevenlabs-stt

🎙️ 高精度多语言语音转录专家

🥥18总安装量 4评分人数 3
100% 的用户推荐

基于 ElevenLabs Scribe V2 的高速语音转文字服务,支持多语言识别、说话人分离与音频事件标注,适合会议记录、播客转录等专业场景。

B

存在边界风险,建议在隔离环境中验证

  • 来自可信组织或认证账号,需要结合权限范围判断
  • ✅ 无本地代码执行,仅通过 MCP 调用外部 API,代码执行风险极低
  • ✅ 无敏感信息硬编码,API 密钥由平台托管
  • ⚠️ 音频 URL 会发送至 ElevenLabs/Fal.ai 外部服务器,需确保 URL 不含敏感凭证
  • ⚠️ 依赖第三方服务可用性,存在单点故障风险
  • ⚠️ 按分钟计费模式,长音频使用需注意成本控制

使用说明

核心用法

ElevenLabs Scribe V2 语音转文字技能通过 MCP 工具调用 fal.ai 托管的 ElevenLabs 模型,实现高质量的语音识别与转录。用户只需提供音频文件 URL,即可提交异步任务并获取包含时间戳、说话人标识的精细化转录结果。

主要工作流程分为两步:首先调用 submit_task 提交任务,指定音频 URL 及可选参数(语言代码、说话人分离、音频事件标注、专业术语关键词);随后通过 get_task 轮询任务状态,获取最终转录文本。支持 mp3、ogg、wav、m4a、aac 等主流音频格式,覆盖英语、中文、日语、韩语等 32 种语言。

显著优点

1. 高精度识别:ElevenLabs Scribe V2 是当前业界领先的 STT 模型之一,在多个基准测试中表现优异,尤其擅长处理多人对话场景。

2. 丰富的结构化输出:不仅返回完整文本,还提供逐词时间戳、说话人分离标识(speaker_0/speaker_1 等)、音频事件标注(笑声、掌声、音乐等),便于后续编辑与分析。

3. 专业术语优化:通过 keyterms 参数可预置最多 100 个专业术语,显著提升医疗、法律、技术等领域特定词汇的识别准确率。

4. 灵活的异步架构:任务提交与结果查询分离,适合处理长音频文件,避免阻塞式等待。

5. 透明定价:按分钟计费(4-5 积分/分钟),无隐藏费用,最低计费 1 分钟。

潜在缺点与局限性

1. 网络依赖性强:完全依赖 fal.ai 和 ElevenLabs 的外部服务,若平台出现故障或网络中断,服务将不可用。

2. 音频 URL 隐私风险:用户需提供可公开访问的音频 URL,无法直接上传本地文件,敏感音频需先上传至私有存储并配置临时访问链接。

3. 计费累积风险:长音频(如 2 小时会议)将产生约 480-600 积分的费用,高频使用成本较高。

4. 异步等待成本:任务处理时间随音频长度线性增长,实时性要求高的场景体验受限。

5. 语言自动检测非最优:虽然支持自动检测,但明确指定 language_code 可提升准确度,增加了用户操作复杂度。

适合的目标群体

  • 企业会议记录员:需要生成带说话人标识的会议纪要
  • 播客与视频创作者:批量生成字幕与时间轴
  • 学术研究人员:转录访谈录音、田野调查音频
  • 医疗与法律从业者:利用 keyterms 优化专业术语识别
  • 多语言内容团队:处理跨语言音频素材

使用风险

1. 服务可用性风险:第三方 API 可能出现延迟或故障,建议实现重试机制
2. 数据合规风险:音频 URL 传输至境外服务器(ElevenLabs 为美国公司),需评估数据跨境合规要求

3. 成本控制风险:未设置用量上限,意外提交超长音频可能导致高额账单

4. URL 失效风险:若音频 URL 在任务处理前过期,将导致任务失败

elevenlabs-stt 内容

手动下载zip · 2.0 kB
SKILL.mdtext/markdown
请选择文件