Transcribee 🐝

🎙️ AI 语音转录,说话人自动分离

基于 ElevenLabs 的 YouTube/本地音视频转录工具,支持说话人分离与多格式输出,适合播客、会议记录整理。

收藏
11.9k
安装
3.2k
版本
1.1.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

Transcribee 是一款命令行转录工具,通过 ElevenLabs API 实现 YouTube 视频及本地音视频文件的语音转文字,并内置说话人分离(speaker diarization)功能。用户只需提供 URL 或本地路径即可一键生成结构化转录文档。

典型工作流:
1. 输入 YouTube 链接或本地文件路径(支持 mp3/mp4/mov 等常见格式)

2. 工具自动下载/读取媒体并上传至 ElevenLabs 处理

3. 输出保存至 ~/Documents/transcripts/ 分类目录,包含:

  • transcription.txt:带说话人标签的整洁文本
  • transcription-raw.txt:纯文本版本
  • transcription-raw.json:词级时间戳数据
  • metadata.json:元信息归档

显著优点

  • 即开即用:单命令完成下载→转录→归档全流程
  • 说话人分离:自动标注 Speaker A/B/C,大幅提升多角色内容可读性
  • 多格式兼容:覆盖主流音视频容器格式
  • 结构化输出:JSON 时间戳数据便于二次开发(如制作字幕、片段剪辑)
  • 分类存储:按内容类型自动归档,避免文件混乱

潜在缺点与局限性

| 问题 | 说明 |
|------|------|
| **第三方依赖** | 需 ElevenLabs API 密钥,存在用量成本与服务可用性风险 |
| **网络依赖** | YouTube 下载依赖 yt-dlp,受平台反爬策略波动影响 |
| **隐私顾虑** | 文件上传至 ElevenLabs 云端处理,敏感内容存在外泄风险 |
| **平台限制** | 仅支持 macOS(Homebrew 安装依赖),无 Windows/Linux 原生方案 |
| **精度边界** | 说话人分离准确率受音质、口音、重叠对话影响 |

适合人群

  • 播客制作人与听众(快速生成 shownotes)
  • 研究人员(访谈录音整理)
  • 内容创作者(YouTube 视频文字化再利用)
  • 需批量处理会议记录的企业用户

常规风险

  • API 费用:ElevenLabs 按音频时长计费,长视频成本需提前评估
  • 数据合规:医疗、法律等敏感领域建议选用本地部署的 Whisper 替代方案
  • URL 失效:YouTube 链接可能因地区限制、删除导致下载失败

Transcribee 🐝 内容

暂无文件树

手动下载zip · 21.6 kB
contentapplication/octet-stream
请选择文件