Transcribee 🐝

🎙️ AI 音视频转录,一键生成对话文本

基于 ElevenLabs API 的音视频转录工具,支持 YouTube 链接与本地媒体文件,具备说话人分离功能,输出结构化文本供 LLM 分析。

收藏
12.8k
安装
3.2k
版本
1.2.1
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

transcribee 是一款命令行转录工具,通过 ElevenLabs 的 Scribe API 实现音视频转文字。核心用法极为简洁:直接传入 YouTube URL 或本地文件路径即可触发全流程——自动下载(YouTube 场景)、格式转换、语音识别、说话人分离,最终生成四种格式的输出文件。

典型工作流:

# 转录 YouTube 视频(URL 需引号包裹)
transcribee "https://www.youtube.com/watch?v=xxx"

# 转录本地播客/会议录音
transcribee ~/Downloads/interview.mp3

输出文件按 ~/Documents/transcripts/{category}/{title}-{date}/ 结构归档,包含:

  • transcription.txt — 带说话人标签的整洁文本(如 "Speaker A: ...")
  • transcription-raw.txt — 纯文本无标签
  • transcription-raw.json — 单词级时间戳(精确字幕制作)
  • metadata.json — 视频元数据、语言识别、自动分类

显著优点

1. 说话人分离(Diarization):自动区分不同说话人,会议记录、访谈整理效率倍增
2. 多格式兼容:覆盖主流音视频格式(mp3/mp4/mkv/webm 等),无需手动转码

3. YouTube 原生支持:集成 yt-dlp,一键处理在线视频,自动提取标题、频道信息

4. 结构化输出:JSON 时间戳数据可直接导入字幕软件或进行时间轴分析

5. LLM 就绪:默认输出已清洗,可直接投喂大语言模型进行摘要、问答、情感分析

潜在缺点与局限

| 局限 | 说明 |
|------|------|
| **第三方 API 依赖** | 核心功能完全依赖 ElevenLabs Scribe API,需自备 API key,存在单点故障风险 |
| **成本累积** | ElevenLabs 按音频时长计费,长视频/批量处理成本需关注(约 $0.02-0.04/分钟) |
| **网络要求** | YouTube 下载需稳定网络,部分区域可能受限制 |
| **隐私边界** | 敏感音频需上传至 ElevenLabs 云端处理,本地化部署非本工具范畴 |
| **语言支持** | 实际准确率受 ElevenLabs 模型语言能力约束,小语种表现未明确说明 |

适合人群

  • 播客创作者/听众:快速生成节目文字稿,制作摘录或搜索索引
  • 研究学者:批量转录访谈录音、学术讲座,建立可检索的文本库
  • 会议效率者:替代传统速记,自动生成带发言人的会议纪要底稿
  • 内容运营:YouTube/B站 创作者获取视频文案,二次剪辑或图文转化
  • 开发者/AI 用户:需要结构化 transcript 作为 LLM RAG pipeline 的输入源

常规风险

  • API 密钥泄露.env 文件若误提交至版本控制,可能导致密钥滥用
  • 版权合规:YouTube 下载需遵守平台 ToS 及当地版权法规,商业用途需谨慎
  • 存储膨胀:长期累积的原始音频+转录文件可能占用大量本地磁盘空间
  • 依赖维护:yt-dlp 需定期更新以应对 YouTube 反爬策略变化

> 安全提示:建议在 .env 文件所在目录添加 .gitignore,并考虑启用 ElevenLabs API key 的 IP 白名单或用量告警。

Transcribee 🐝 内容

暂无文件树

手动下载zip · 23.1 kB
contentapplication/octet-stream
请选择文件