Transcribee 🐝

🎙️ 音视频一键转写,智能区分说话人

开发工具榜 #26

基于 ElevenLabs API 的语音转录工具,支持 YouTube/本地音视频文件转写与说话人分离,输出结构化文本供 LLM 分析。

收藏
12.8k
安装
3.2k
版本
1.0.0
CLS 安全性认证2026-05-17
点击查看完整报告 >

使用说明

核心功能

Transcribee 是一款命令行语音转录工具,整合 yt-dlp 下载能力与 ElevenLabs Scribe API,支持 YouTube 视频及本地音频/视频文件的自动转写。核心特性包括说话人分离(Speaker Diarization),可自动识别对话中的不同说话者并标注输出。

显著优点

1. 多源兼容:同时支持在线 YouTube URL 与本地文件(mp3/mp4/mkv 等 10+ 格式)
2. 结构化输出:生成四种格式——带说话人标签的清洗文本、纯文本、带时间戳的 JSON、元数据文件,便于后续 LLM 处理

3. 自动化归档:按分类自动保存至 ~/Documents/transcripts/,含日期与标题命名

4. 开源依赖:基于 yt-dlp 与 ffmpeg 等成熟开源工具,无封闭生态锁定

潜在局限

  • 第三方 API 依赖:核心转写能力完全依赖 ElevenLabs Scribe API,需有效 API key 且受限于服务商定价与可用性
  • 隐私风险:音视频内容需上传至 ElevenLabs 云端处理,敏感内容存在数据外泄风险
  • 平台限制:主要面向 macOS(Homebrew 依赖),跨平台支持未明确
  • 无本地模型:不支持离线转写,无法应对网络中断或 API 限制场景

适合人群

  • 播客/访谈创作者需快速生成带说话人标注的文稿
  • 研究人员处理大量音视频访谈资料
  • 内容团队需要将 YouTube 内容转为 LLM 可分析的文本格式

常规风险

  • API 密钥泄露风险(存储于 .env 文件)
  • 版权内容下载的法律合规性(yt-dlp 使用需遵守当地法规)
  • 云服务转写的数据留存政策不确定性

安全解读

核心用法

transcribee 是一款基于 ElevenLabs API 的音视频转录工具,通过 Claude Skill 形式提供使用指南。支持两类输入源:

1. 在线视频:直接粘贴 YouTube URL(含 youtube.comyoutu.be 短链)
2. 本地媒体:拖拽或指定路径的音频/视频文件

执行命令后自动完成下载(YouTube 场景)、语音转录、说话人分离(Speaker Diarization),输出结构化文本。

输出产物

| 文件 | 用途 |
|------|------|
| `transcription.txt` | 带说话人标签的纯净文本 |
| `transcription-raw.txt` | 纯文本,无说话人标记 |
| `transcription-raw.json` | 词级时间戳数据 |
| `metadata.json` | 视频元信息、语言、分类 |

默认存储路径:~/Documents/transcripts/{category}/{title}-{date}/

支持格式

  • 音频:MP3、M4A、WAV、OGG、FLAC
  • 视频:MP4、MKV、WebM、MOV、AVI

前置依赖

brew install yt-dlp ffmpeg

API 密钥通过 .env 文件配置,遵循安全最佳实践。

---

显著优点

1. 说话人分离精准:依托 ElevenLabs 行业领先的语音识别模型,自动区分多人对话场景
2. 输出格式丰富:同时提供人类可读文本与机器可解析 JSON,兼顾直接阅读与 LLM 二次分析

3. 工作流集成度高:输出目录结构化分类,便于批量管理与下游自动化处理

4. 零代码风险:本 Skill 为纯 Markdown 文档,无脚本执行逻辑,安全审计获 S+ 评级

潜在局限

| 局限 | 说明 |
|------|------|
| 依赖外部 API | 需 ElevenLabs API 密钥,产生调用成本;离线场景不可用 |
| 工具链依赖 | 需自行安装 yt-dlp 与 ffmpeg,对非技术用户存在门槛 |
| 隐私边界 | 原始音视频需上传至 ElevenLabs 服务端处理,敏感内容需谨慎 |
| 语言支持 | 受 ElevenLabs 模型语言覆盖范围限制 |

适合人群

  • 播客制作者、记者、研究人员:快速获取可搜索、可引用的对话文本
  • 内容创作者:将长视频转化为文案素材或章节摘要
  • 企业知识管理:会议录像归档与智能检索
  • LLM 开发者:为 RAG 系统提供结构化语音数据源

常规风险

  • 供应链风险:yt-dlp 与 ffmpeg 需从官方渠道安装,避免篡改版本
  • API 密钥管理.env 文件需妥善保管,勿提交至版本控制
  • 版权合规:转录受版权保护的内容需确保合法授权
  • 数据留存:ElevenLabs 服务端的数据处理与留存政策需用户自行评估

Transcribee 🐝 内容

手动下载zip · 986 B
SKILL.mdtext/markdown
请选择文件