使用说明

核心用法

transcribee 是一款命令行转录工具，通过 ElevenLabs 的 Scribe API 实现音视频转文字。核心用法极为简洁：直接传入 YouTube URL 或本地文件路径即可触发全流程——自动下载（YouTube 场景）、格式转换、语音识别、说话人分离，最终生成四种格式的输出文件。

典型工作流：

# 转录 YouTube 视频（URL 需引号包裹）
transcribee "https://www.youtube.com/watch?v=xxx"

# 转录本地播客/会议录音
transcribee ~/Downloads/interview.mp3

输出文件按 ~/Documents/transcripts/{category}/{title}-{date}/ 结构归档，包含：

transcription.txt — 带说话人标签的整洁文本（如 "Speaker A: ..."）
transcription-raw.txt — 纯文本无标签
transcription-raw.json — 单词级时间戳（精确字幕制作）
metadata.json — 视频元数据、语言识别、自动分类

显著优点

1. 说话人分离（Diarization）：自动区分不同说话人，会议记录、访谈整理效率倍增
2. 多格式兼容：覆盖主流音视频格式（mp3/mp4/mkv/webm 等），无需手动转码
3. YouTube 原生支持：集成 yt-dlp，一键处理在线视频，自动提取标题、频道信息
4. 结构化输出：JSON 时间戳数据可直接导入字幕软件或进行时间轴分析
5. LLM 就绪：默认输出已清洗，可直接投喂大语言模型进行摘要、问答、情感分析

潜在缺点与局限

| 局限 | 说明 |

|------|------|

| **第三方 API 依赖** | 核心功能完全依赖 ElevenLabs Scribe API，需自备 API key，存在单点故障风险 |

| **成本累积** | ElevenLabs 按音频时长计费，长视频/批量处理成本需关注（约 $0.02-0.04/分钟） |

| **网络要求** | YouTube 下载需稳定网络，部分区域可能受限制 |

| **隐私边界** | 敏感音频需上传至 ElevenLabs 云端处理，本地化部署非本工具范畴 |

| **语言支持** | 实际准确率受 ElevenLabs 模型语言能力约束，小语种表现未明确说明 |

适合人群

播客创作者/听众：快速生成节目文字稿，制作摘录或搜索索引
研究学者：批量转录访谈录音、学术讲座，建立可检索的文本库
会议效率者：替代传统速记，自动生成带发言人的会议纪要底稿
内容运营：YouTube/B站创作者获取视频文案，二次剪辑或图文转化
开发者/AI 用户：需要结构化 transcript 作为 LLM RAG pipeline 的输入源

常规风险

API 密钥泄露：.env 文件若误提交至版本控制，可能导致密钥滥用
版权合规：YouTube 下载需遵守平台 ToS 及当地版权法规，商业用途需谨慎
存储膨胀：长期累积的原始音频+转录文件可能占用大量本地磁盘空间
依赖维护：yt-dlp 需定期更新以应对 YouTube 反爬策略变化

> 安全提示：建议在 .env 文件所在目录添加 .gitignore，并考虑启用 ElevenLabs API key 的 IP 白名单或用量告警。

安全解读

核心功能

Transcribee是一款专注于音视频内容转录的实用工具，通过集成ElevenLabs的语音AI服务，提供YouTube视频和本地媒体文件的自动转录能力。核心特性包括：

多源输入支持：直接处理YouTube链接（自动下载音频）或本地音视频文件（mp3/mp4等主流格式）
说话人分离（Diarization）：自动识别不同说话人，输出带标签的对话文本
多格式输出：提供带说话人标签的整理版、纯文本版、带时间戳的JSON版本
智能分类归档：按内容类别自动组织转录文件到结构化目录

显著优势

1. 零配置快速上手：通过Homebrew一键安装依赖（yt-dlp、ffmpeg），API密钥环境变量管理
2. LLM友好输出：转录结果直接适配后续AI分析工作流，支持Anthropic API自动内容分类
3. 隐私设计合理：敏感信息（API Keys）严格通过.env文件管理，无硬编码风险
4. 输出灵活完整：从原始JSON时间轴到 cleaned 对话文本，满足从精校到速览的不同需求

局限性与注意事项

外部依赖必需：功能依赖yt-dlp（YouTube下载）和ffmpeg（音视频处理），虽为行业标准工具但增加维护面
API成本：ElevenLabs语音转文字按用量计费，长视频/高频使用需考虑成本
网络依赖：核心转录能力完全依赖云端API，离线场景无法使用
个人维护项目：由独立开发者维护，长期更新稳定性需关注社区活跃度

适用人群

播客制作者、内容运营者需要快速生成节目文字稿
研究人员处理访谈录音、会议录像的质性分析
自媒体创作者进行视频内容二次创作与素材整理
任何需要将长音频视频转为可检索、可分析文本的场景

安全评估

经完整安全扫描，项目获得S级安全评级。代码结构清晰，无动态代码执行、无提示词投毒、无隐蔽数据外泄。外部命令调用（yt-dlp/ffmpeg）为功能必需且经过适当错误处理；API密钥通过环境变量安全获取，符合安全最佳实践。依赖包均来自官方可信源，无已知CVE漏洞。

transcription speech-to-text youtube podcast cli-tool elevenlabs diarization audio-processing meeting-notes content-creation

Transcribee 🐝 内容

手动下载zip · 23.1 kB

CLAUDE.mdtext/markdown

请选择文件