Transcribee 🐝

🎙️ AI 音视频转录与说话人分离

基于 ElevenLabs API 的音视频转录工具,支持 YouTube 链接与本地文件,自动区分说话人并输出结构化文本,便于 LLM 二次分析。

收藏
7.1k
安装
3.2k
版本
1.2.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

Transcribee 是一款命令行转录工具,通过调用 ElevenLabs API 实现音频/视频内容的语音转文字,并具备说话人分离(Speaker Diarization)能力。用户只需提供 YouTube URL 或本地文件路径,即可自动生成带说话人标签的完整转录文本。

显著优点

  • 多源兼容:同时支持 YouTube 在线视频与本地音视频文件(mp3/mp4/wav 等十余种格式)
  • 智能标注:自动识别不同说话人并添加标签(Speaker A/B/C...),免去人工区分麻烦
  • 输出丰富:提供带标签文本、纯文本、词级时间戳 JSON、元数据四种格式,满足下游 LLM 分析、字幕制作、内容归档等多场景需求
  • 结构化存储:按类别+标题+日期自动归档,便于长期管理

潜在局限与风险

  • 依赖外部 API:核心能力完全依赖 ElevenLabs 云服务,存在网络延迟、配额限制、服务中断风险
  • 隐私隐患:本地文件需上传至第三方云端处理,敏感内容存在数据外泄可能
  • 成本因素:ElevenLabs API 按时长计费,高频/长视频使用成本累积较快
  • 环境配置:需手动安装 yt-dlp、ffmpeg 及配置 API 密钥,对非技术用户门槛较高
  • 中文支持存疑:ElevenLabs 官方文档主要强调英语场景,中文转录准确性需实际验证

适合人群

  • 播客/会议纪要的整理者,需要将长音频快速转为可编辑文本
  • 内容创作者,需从 YouTube 视频中提取结构化文稿用于二次创作
  • AI 研究者/开发者,需获取带时间戳的语料进行 LLM 微调或分析

常规风险

  • API 密钥泄露风险:.env 文件需妥善保管
  • 版权合规:下载/转录 YouTube 内容需遵守平台 ToS 及当地版权法规
  • 转录误差:口音、专业术语、多人重叠说话场景识别准确率可能下降

Transcribee 🐝 内容

暂无文件树

手动下载zip · 23.1 kB
contentapplication/octet-stream
请选择文件