使用说明

ElevenLabs Transcribe 是一款基于 ElevenLabs 官方 Scribe 引擎的语音转文字技能，提供企业级的音频转录能力。该技能支持三种核心使用模式：批量文件转录（支持本地音频/视频文件）、实时流式传输（支持 URL 网络流和麦克风输入）以及带有时间戳的 JSON 输出模式。用户可通过简单的命令行接口 ./transcribe.sh 配合不同参数实现多样化需求，如添加 --diarize 启用说话人分离，--json 获取带时间戳的详细数据，--realtime 实现实时转录流。

该技能的显著优势在于其底层依托 ElevenLabs 行业领先的语音识别技术，支持 90 余种语言识别并具备高准确率的说话人分离能力。格式兼容性极佳，涵盖 MP3、WAV、FLAC 等主流音频格式及 MP4、MKV 等视频格式，单文件支持最大 3GB 或 10 小时时长。实时流模式特别适合直播转录、会议记录等场景，而静音模式（--quiet）则专为 Agent 自动化工作流优化设计。

然而，该技能也存在一定局限性。首先，处理过程完全依赖云端 API，所有音频数据需上传至 ElevenLabs 服务器，不适合处理高度敏感的私密音频内容。其次，功能依赖外部二进制工具 ffmpeg 进行格式转换，增加了环境配置的复杂度。此外，作为社区维护的 T3 级别技能，虽代码质量良好，但长期维护稳定性不如官方 T1/T2 级别来源。

该技能特别适合内容创作者（播客制作、视频字幕生成）、企业会议记录员、媒体记者以及学术研究人员。对于需要将大量音频资料快速转化为可搜索文本、或需要实时转写直播内容的用户而言，其批量处理和流式传输能力能显著提升工作效率。

使用风险方面，用户需妥善管理 ELEVENLABS_API_KEY 避免泄露，注意音频内容隐私合规性（尤其是涉及个人隐私或商业机密的录音）。网络连接稳定性直接影响实时转录体验，且 API 调用可能产生费用。建议在使用前确认 ffmpeg 已正确安装，并在处理大文件时预留足够的本地存储空间用于临时缓存。

安全解读

核心用法

该 Skill 基于 ElevenLabs Scribe API，提供命令行语音转文字能力，支持三种主要模式：

批量转录：本地音频/视频文件（MP3、WAV、MP4等，最大3GB/10小时）
实时流式：从URL（直播、播客）或麦克风输入实时转录
高级功能：说话人分离（--diarize）、音频事件标记（--events）、JSON时间戳输出（--json）

显著优点

准确率领先：ElevenLabs Scribe 为当前业界顶尖语音模型之一，支持90+语言
官方维护：T1级别可信来源，代码结构清晰，安全审计通过
灵活输入：支持文件、URL、麦克风三种来源，满足多样化场景
开发者友好：--quiet静默模式适合Agent集成，JSON输出便于下游处理

潜在局限

依赖外部API：需稳定的网络连接，存在API调用成本（ElevenLabs计费）
环境配置：需安装ffmpeg、Python 3.8+，首次运行需自动安装依赖
隐私考量：音频数据上传至ElevenLabs云端处理，敏感场景需评估合规性

适合人群

需要高质量多语言转录的内容创作者、播客主
开发语音交互Agent的工程师（尤其推荐--mic --quiet组合）
会议记录、采访整理、直播字幕生成的专业用户

常规风险

API密钥泄露：虽通过环境变量安全读取，但仍需妥善保管ELEVENLABS_API_KEY
文件来源安全：建议仅处理可信来源的音频，避免恶意构造的媒体文件
成本管控：实时流式转录可能产生较高API调用费用，生产环境建议设置预算告警

api content-media productivity automation docs

elevenlabs-transcribe 内容

scripts文件夹

手动下载zip · 6.9 kB

requirements.txttext/plain

请选择文件