使用说明

核心用法

ElevenLabs Scribe V2 语音转文字技能通过 MCP 工具调用 fal.ai 托管的 ElevenLabs 模型，实现高质量的语音识别与转录。用户只需提供音频文件 URL，即可提交异步任务并获取包含时间戳、说话人标识的精细化转录结果。

主要工作流程分为两步：首先调用 submit_task 提交任务，指定音频 URL 及可选参数（语言代码、说话人分离、音频事件标注、专业术语关键词）；随后通过 get_task 轮询任务状态，获取最终转录文本。支持 mp3、ogg、wav、m4a、aac 等主流音频格式，覆盖英语、中文、日语、韩语等 32 种语言。

显著优点

1. 高精度识别：ElevenLabs Scribe V2 是当前业界领先的 STT 模型之一，在多个基准测试中表现优异，尤其擅长处理多人对话场景。

2. 丰富的结构化输出：不仅返回完整文本，还提供逐词时间戳、说话人分离标识（speaker_0/speaker_1 等）、音频事件标注（笑声、掌声、音乐等），便于后续编辑与分析。

3. 专业术语优化：通过 keyterms 参数可预置最多 100 个专业术语，显著提升医疗、法律、技术等领域特定词汇的识别准确率。

4. 灵活的异步架构：任务提交与结果查询分离，适合处理长音频文件，避免阻塞式等待。

5. 透明定价：按分钟计费（4-5 积分/分钟），无隐藏费用，最低计费 1 分钟。

潜在缺点与局限性

1. 网络依赖性强：完全依赖 fal.ai 和 ElevenLabs 的外部服务，若平台出现故障或网络中断，服务将不可用。

2. 音频 URL 隐私风险：用户需提供可公开访问的音频 URL，无法直接上传本地文件，敏感音频需先上传至私有存储并配置临时访问链接。

3. 计费累积风险：长音频（如 2 小时会议）将产生约 480-600 积分的费用，高频使用成本较高。

4. 异步等待成本：任务处理时间随音频长度线性增长，实时性要求高的场景体验受限。

5. 语言自动检测非最优：虽然支持自动检测，但明确指定 language_code 可提升准确度，增加了用户操作复杂度。

适合的目标群体

企业会议记录员：需要生成带说话人标识的会议纪要
播客与视频创作者：批量生成字幕与时间轴
学术研究人员：转录访谈录音、田野调查音频
医疗与法律从业者：利用 keyterms 优化专业术语识别
多语言内容团队：处理跨语言音频素材

使用风险

1. 服务可用性风险：第三方 API 可能出现延迟或故障，建议实现重试机制
2. 数据合规风险：音频 URL 传输至境外服务器（ElevenLabs 为美国公司），需评估数据跨境合规要求
3. 成本控制风险：未设置用量上限，意外提交超长音频可能导致高额账单
4. URL 失效风险：若音频 URL 在任务处理前过期，将导致任务失败

安全解读

核心用法

ElevenLabs Scribe V2 是一款专业级语音转文字（STT）服务，通过 MCP 工具 submit_task 提交转录任务。核心参数包括 audio_url（支持 mp3/ogg/wav/m4a/aac）、language_code（可选，自动检测或指定如 eng/cmn/jpn）、diarize（说话人分离，默认开启）、tag_audio_events（音频事件标注，如笑声掌声）以及 keyterms（专业术语增强，额外收费 30%）。任务提交后通过 get_task 轮询获取结果，输出包含完整文本、时间戳级别的逐词信息及说话人标识。

显著优点

高精度与速度并重：ElevenLabs 在语音合成领域的技术积累延伸至识别场景，Scribe V2 在多种语言的词错率（WER）表现优异
说话人分离（Diarization）：自动区分不同说话人，输出带 speaker_id 的时间戳文本，对会议、访谈类内容极有价值
音频事件感知：可标注非语音事件（笑声、掌声、音乐等），提升转录可读性
专业术语优化：keyterms 参数允许上传最多 100 个术语，显著提升垂直领域（医疗、法律、技术）识别准确率
性价比合理：基础定价约 $0.008/分钟，低于多数商用 STT 服务

潜在缺点与局限性

网络依赖与延迟：需通过 fal.ai 云端 API 处理，离线场景不可用；长音频需排队等待
语言支持边界：虽支持主流语言，但小语种或方言的识别质量可能不及英语/中文/日语等核心语言
keyterms 成本敏感：专业术语增强功能费用提升 30%，高频使用场景需精细成本核算
无本地处理能力：所有音频需上传至云端，对敏感音频内容存在数据合规顾虑
说话人分离准确率：多人重叠语音或音质较差场景下，diarization 可能产生 speaker 误判

适合人群

内容创作者：播客主、视频博主，需快速生成字幕或文字稿
企业与教育：会议纪要整理、在线课程转录、培训素材归档
媒体与科研：采访录音整理、口述历史数字化、多语言音频研究
开发者与自动化工作流：需集成 STT 能力的 AI 应用、RPA 流程

常规风险

数据隐私：音频文件上传至第三方云服务商，需评估是否涉及敏感个人信息或商业机密
API 稳定性：依赖 fal.ai 与 ElevenLabs 的服务可用性，建议实现重试与降级策略
成本失控：长音频或高频调用场景需设置预算告警，避免因 keyterms 滥用导致费用激增
结果校验必要性：自动转录仍需人工校对，关键场景（法律、医疗）不可直接使用机器输出

---

来源可信度：T3（个人开发者/社区项目），虽经安全扫描无代码风险，但建议关注维护者 hexiaochun 的后续更新与社区反馈。

content-media productivity api automation

elevenlabs-stt 内容

手动下载zip · 2.0 kB

SKILL.mdtext/markdown

请选择文件