使用说明

核心功能

Transcribee 是一款命令行语音转录工具，整合 yt-dlp 下载能力与 ElevenLabs Scribe API，支持 YouTube 视频及本地音频/视频文件的自动转写。核心特性包括说话人分离（Speaker Diarization），可自动识别对话中的不同说话者并标注输出。

显著优点

1. 多源兼容：同时支持在线 YouTube URL 与本地文件（mp3/mp4/mkv 等 10+ 格式）
2. 结构化输出：生成四种格式——带说话人标签的清洗文本、纯文本、带时间戳的 JSON、元数据文件，便于后续 LLM 处理
3. 自动化归档：按分类自动保存至 ~/Documents/transcripts/，含日期与标题命名
4. 开源依赖：基于 yt-dlp 与 ffmpeg 等成熟开源工具，无封闭生态锁定

潜在局限

第三方 API 依赖：核心转写能力完全依赖 ElevenLabs Scribe API，需有效 API key 且受限于服务商定价与可用性
隐私风险：音视频内容需上传至 ElevenLabs 云端处理，敏感内容存在数据外泄风险
平台限制：主要面向 macOS（Homebrew 依赖），跨平台支持未明确
无本地模型：不支持离线转写，无法应对网络中断或 API 限制场景

适合人群

播客/访谈创作者需快速生成带说话人标注的文稿
研究人员处理大量音视频访谈资料
内容团队需要将 YouTube 内容转为 LLM 可分析的文本格式

常规风险

API 密钥泄露风险（存储于 .env 文件）
版权内容下载的法律合规性（yt-dlp 使用需遵守当地法规）
云服务转写的数据留存政策不确定性

安全解读

核心用法

transcribee 是一款基于 ElevenLabs API 的音视频转录工具，通过 Claude Skill 形式提供使用指南。支持两类输入源：

1. 在线视频：直接粘贴 YouTube URL（含 youtube.com 与 youtu.be 短链）
2. 本地媒体：拖拽或指定路径的音频/视频文件

执行命令后自动完成下载（YouTube 场景）、语音转录、说话人分离（Speaker Diarization），输出结构化文本。

输出产物

| 文件 | 用途 |

|------|------|

| `transcription.txt` | 带说话人标签的纯净文本 |

| `transcription-raw.txt` | 纯文本，无说话人标记 |

| `transcription-raw.json` | 词级时间戳数据 |

| `metadata.json` | 视频元信息、语言、分类 |

默认存储路径：~/Documents/transcripts/{category}/{title}-{date}/

支持格式

音频：MP3、M4A、WAV、OGG、FLAC
视频：MP4、MKV、WebM、MOV、AVI

前置依赖

brew install yt-dlp ffmpeg

API 密钥通过 .env 文件配置，遵循安全最佳实践。

---

显著优点

1. 说话人分离精准：依托 ElevenLabs 行业领先的语音识别模型，自动区分多人对话场景
2. 输出格式丰富：同时提供人类可读文本与机器可解析 JSON，兼顾直接阅读与 LLM 二次分析
3. 工作流集成度高：输出目录结构化分类，便于批量管理与下游自动化处理
4. 零代码风险：本 Skill 为纯 Markdown 文档，无脚本执行逻辑，安全审计获 S+ 评级

潜在局限

| 局限 | 说明 |

|------|------|

| 依赖外部 API | 需 ElevenLabs API 密钥，产生调用成本；离线场景不可用 |

| 工具链依赖 | 需自行安装 yt-dlp 与 ffmpeg，对非技术用户存在门槛 |

| 隐私边界 | 原始音视频需上传至 ElevenLabs 服务端处理，敏感内容需谨慎 |

| 语言支持 | 受 ElevenLabs 模型语言覆盖范围限制 |

适合人群

播客制作者、记者、研究人员：快速获取可搜索、可引用的对话文本
内容创作者：将长视频转化为文案素材或章节摘要
企业知识管理：会议录像归档与智能检索
LLM 开发者：为 RAG 系统提供结构化语音数据源

常规风险

供应链风险：yt-dlp 与 ffmpeg 需从官方渠道安装，避免篡改版本
API 密钥管理：.env 文件需妥善保管，勿提交至版本控制
版权合规：转录受版权保护的内容需确保合法授权
数据留存：ElevenLabs 服务端的数据处理与留存政策需用户自行评估

audio-processing transcription youtube elevenlabs cli speech-to-text speaker-diarization

Transcribee 🐝 内容

手动下载zip · 986 B

SKILL.mdtext/markdown

请选择文件