transcribee

🎙️ 智能音视频一键转录助手

基于 ElevenLabs API 的音视频转录工具,支持 YouTube 链接与本地文件,自动区分说话人并输出结构化文本,适合内容创作者快速获取可分析的对话记录。

收藏
628
安装
263
版本
v1.2.1
CLS 安全性认证2026-06-04
点击查看完整报告 >

使用说明

核心用法

Transcribee 是一款命令行音视频转录工具,通过调用 ElevenLabs 的语音转录 API 实现高精度语音识别,并集成 Anthropic Claude 进行内容自动分类。用户只需提供 YouTube URL 或本地文件路径,工具即可自动下载(针对网络视频)、提取音频、完成转录,并按说话人分离输出带标签的文本。所有结果默认保存至 ~/Documents/transcripts// 目录,包含四种格式:带说话人标签的纯净文本、无标签纯文本、词级时间戳 JSON 以及元数据文件,满足不同下游场景需求。

显著优点

该工具的最大优势在于端到端自动化——从视频下载、音频处理到智能分类一气呵成,无需用户手动切换多个工具。说话人分离(diarization)功能对访谈、播客、会议等多人场景尤为实用,可直接生成结构化的对话记录。输出格式丰富,既可直接阅读,也可导入 LLM 进行深度分析。依赖管理清晰,通过 Homebrew 即可安装 yt-dlp 和 ffmpeg 两大核心组件,降低了环境配置门槛。

潜在缺点与局限性

隐私风险是首要顾虑:所有音频数据必须上传至 ElevenLabs 服务器,转录文本还需发送至 Anthropic 进行分类,敏感内容存在外泄可能。其次,功能强依赖外部 API,网络波动或服务中断将直接导致工具失效,且 1200 秒的超时设置在网络不佳时体验较差。此外,工具对本地环境的侵入性较强,需要执行 yt-dlp、ffmpeg 等系统命令,存在潜在的命令注入风险;文件扩展名检查仅基于后缀,安全性验证不够严谨。最后,缺乏离线模式,无法在无网络环境或隐私要求严格的场景下使用。

适合的目标群体

  • 内容创作者与自媒体运营者:快速将视频/播客转为可编辑文本
  • 研究人员与记者:整理访谈录音、提取关键信息
  • 企业培训团队:将会议录像转为结构化文档
  • 开发者与数据分析师:构建基于转录文本的下游应用

不适合:处理含商业机密、个人隐私或受合规约束的音频内容。

使用风险

1. 数据主权风险:音频与文本内容流经第三方服务器,需确认符合组织数据政策
2. API 成本与可用性:ElevenLabs 和 Anthropic 均为付费服务,存在用量限制

3. 系统依赖稳定性:yt-dlp 需随 YouTube 反爬策略更新,ffmpeg 版本差异可能导致兼容问题

4. 存储管理:转录文件长期累积可能占用大量磁盘空间,需定期清理

安全解读

核心用法

Transcribee 是一款命令行音视频转录工具,支持 YouTube 链接和本地文件(mp4、mp3 等)。用户只需运行 transcribee "URL"transribee ~/path/to/file,即可自动完成下载、提取音频、语音转文字、说话人分离(diarization)及智能分类的全流程。输出结果以结构化形式保存至 ~/Documents/transcripts/,包含带说话人标签的纯净文本、原始文本、词级时间戳 JSON 及元数据。

显著优点

1. 端到端自动化:集成 yt-dlp(下载)、ffmpeg(音频提取)、ElevenLabs(STT)、Claude(分类)四大组件,一键完成从 URL 到可用文本的转换,显著降低多工具协作的认知成本。
2. 说话人分离:相比普通转录工具,能识别并标注不同说话人(Speaker A/B/C...),对播客、访谈、会议记录等场景极具价值。

3. 输出格式丰富:同时提供 .txt(可读)、-raw.txt(纯净)、.json(带时间戳)三种格式,兼顾人工阅读与 LLM 下游处理。

4. 代码质量良好:TypeScript 强类型、依赖精简(仅官方 SDK 四个 npm 包)、无危险函数滥用,安全审计得分 78/100,等级 A。

潜在缺点与局限性

1. 系统命令依赖:核心功能依赖外部二进制 yt-dlpffmpeg,虽已通过正则验证和白名单限制参数注入风险,但仍属于敏感操作,需手动安装依赖(brew install)。
2. 路径验证不足:本地文件路径仅检查扩展名,未严格防护 ../ 路径遍历,虽需用户显式传入且文件须存在,攻击面较小,但存在改进空间。

3. 临时文件权限:中间音频文件写入 /tmp 默认权限,虽含清理逻辑,但异常退出时可能残留,且其他用户可读。

4. 成本与配额:依赖 ElevenLabs 和 Anthropic 付费 API,高频使用需关注配额与费用。

适合人群

  • 播客/访谈内容创作者,需要快速生成带说话人标签的文字稿
  • 研究人员处理大量 YouTube 讲座、会议录像
  • 开发者或技术用户,熟悉命令行和 API 密钥配置
  • 不适合:完全零技术基础、无法配置环境变量的用户

常规风险

  • API 密钥泄露:密钥存储于 .env 文件,需确保加入 .gitignore,避免意外提交
  • 网络内容合规:转录 YouTube 视频需遵守平台 ToS 及版权法规,工具本身不审查内容
  • 隐私数据:转录含敏感信息的本地文件时,数据会上传至 ElevenLabs/Anthropic 云服务,虽经 TLS 加密,但需评估第三方数据托管风险
  • 来源可信度 T3:由个人开发者(itsfabioroma)维护,属社区项目级别,建议定期关注更新与安全通告

transcribee 内容

手动下载zip · 22.8 kB
CLAUDE.mdtext/markdown
请选择文件