核心用法
ElevenLabs Scribe V2 语音转文字技能通过 MCP 工具调用 fal.ai 托管的 ElevenLabs 模型,实现高质量的语音识别与转录。用户只需提供音频文件 URL,即可提交异步任务并获取包含时间戳、说话人标识的精细化转录结果。
主要工作流程分为两步:首先调用 submit_task 提交任务,指定音频 URL 及可选参数(语言代码、说话人分离、音频事件标注、专业术语关键词);随后通过 get_task 轮询任务状态,获取最终转录文本。支持 mp3、ogg、wav、m4a、aac 等主流音频格式,覆盖英语、中文、日语、韩语等 32 种语言。
显著优点
1. 高精度识别:ElevenLabs Scribe V2 是当前业界领先的 STT 模型之一,在多个基准测试中表现优异,尤其擅长处理多人对话场景。
2. 丰富的结构化输出:不仅返回完整文本,还提供逐词时间戳、说话人分离标识(speaker_0/speaker_1 等)、音频事件标注(笑声、掌声、音乐等),便于后续编辑与分析。
3. 专业术语优化:通过 keyterms 参数可预置最多 100 个专业术语,显著提升医疗、法律、技术等领域特定词汇的识别准确率。
4. 灵活的异步架构:任务提交与结果查询分离,适合处理长音频文件,避免阻塞式等待。
5. 透明定价:按分钟计费(4-5 积分/分钟),无隐藏费用,最低计费 1 分钟。
潜在缺点与局限性
1. 网络依赖性强:完全依赖 fal.ai 和 ElevenLabs 的外部服务,若平台出现故障或网络中断,服务将不可用。
2. 音频 URL 隐私风险:用户需提供可公开访问的音频 URL,无法直接上传本地文件,敏感音频需先上传至私有存储并配置临时访问链接。
3. 计费累积风险:长音频(如 2 小时会议)将产生约 480-600 积分的费用,高频使用成本较高。
4. 异步等待成本:任务处理时间随音频长度线性增长,实时性要求高的场景体验受限。
5. 语言自动检测非最优:虽然支持自动检测,但明确指定 language_code 可提升准确度,增加了用户操作复杂度。
适合的目标群体
- 企业会议记录员:需要生成带说话人标识的会议纪要
- 播客与视频创作者:批量生成字幕与时间轴
- 学术研究人员:转录访谈录音、田野调查音频
- 医疗与法律从业者:利用 keyterms 优化专业术语识别
- 多语言内容团队:处理跨语言音频素材
使用风险
1. 服务可用性风险:第三方 API 可能出现延迟或故障,建议实现重试机制
2. 数据合规风险:音频 URL 传输至境外服务器(ElevenLabs 为美国公司),需评估数据跨境合规要求
3. 成本控制风险:未设置用量上限,意外提交超长音频可能导致高额账单
4. URL 失效风险:若音频 URL 在任务处理前过期,将导致任务失败