Faster Whisper

🗣️ 极速本地语音转录,20倍实时精准出稿

开源本地语音转文字工具,比 OpenAI Whisper 快4-6倍,支持GPU加速、说话人分离、多格式字幕导出与批量处理

收藏
15.7k
安装
6.4k
版本
1.5.1
CLS 安全性认证2026-05-04
点击查看完整报告 >

使用说明

核心功能

faster-whisper 是 OpenAI Whisper 的高性能本地化实现,基于 CTranslate2 引擎重新构建,在保持相同识别准确率的前提下实现 4-6倍速度提升。配合 GPU 加速(CUDA),可实现约 20倍实时转录(10分钟音频约30秒完成)。

主要能力

基础转录:支持 99+ 种语言的自动识别与转录,默认使用 distil-large-v3.5 模型(6倍速蒸馏模型,准确率损失<1%)。

字幕生成:原生支持 SRT、WebVTT、ASS(Aegisub)、LRC(歌词)、TTML(广播级标准)等格式,可生成词级时间戳(~10ms精度)。

说话人分离:集成 pyannote.audio,自动标注 "谁说了什么",支持自定义说话人姓名映射。

智能处理:URL/YouTube 自动下载、播客 RSS 批量抓取、章节自动检测、音频降噪与归一化、填充词清理(um/uh等)。

批量与搜索:通配符批量处理、断点续传、ETA预估、转录内容关键词搜索与定位。

显著优点

  • 零API成本:完全本地运行,无订阅费用
  • 隐私安全:音频不上传云端,适合敏感内容
  • 生产级性能:C++后端稳定高效,支持量化降显存
  • 灵活输出:多格式并行输出、CSV表格、HTML置信度着色、JSON元数据
  • 精准对齐:自动 wav2vec2 强制对齐,词边界精度达10ms

潜在局限

  • 硬件依赖:CPU转录极慢(~0.3倍实时),强烈依赖NVIDIA GPU
  • macOS无加速:Apple Silicon仅CPU运行(CTranslate2不支持Metal)
  • 初始配置:说话人分离需 HuggingFace 认证与模型许可
  • 显存占用:大模型+分离需 ~3GB VRAM,低显存需降质或量化
  • 长音频流式--stream 模式下禁用分离与词对齐

适合人群

  • 内容创作者(播客、视频字幕制作)
  • 企业与研究机构(会议记录、访谈整理)
  • 隐私敏感场景(医疗、法律、金融转录)
  • 多语言内容处理者(自动语言检测、批量翻译转录)

常规风险

  • 模型幻觉:音乐/静音处可能生成虚假文本,需 --filter-hallucinations 或调低 temperature
  • VAD误切:语音活动检测可能切分不当,需调参 --vad-threshold
  • 蒸馏模型重复:需自动禁用 condition_on_previous_text(脚本已处理)
  • 依赖维护:yt-dlp、ffmpeg、pyannote 等可选组件需单独管理

安全解读

核心用法

faster-whisper 是 OpenAI Whisper 的高性能本地替代方案,通过 CTranslate2 后端实现 4-6 倍加速,GPU 可达 ~20 倍实时转录。核心用法极简:

./scripts/transcribe audio.mp3                    # 基础转录
./scripts/transcribe audio.mp3 --format srt -o subs.srt   # SRT 字幕
./scripts/transcribe meeting.wav --diarize        # 说话人分离
./scripts/transcribe https://youtube.com/...      # URL/YouTube 输入
./scripts/transcribe *.mp3 -o ./out/              # 批量处理

关键特性

  • 多格式输出:SRT/VTT/ASS/LRC/TTML/CSV/JSON/HTML,支持多格式并行输出
  • 精准时间戳:自动 wav2vec2 对齐,单词级精度达 ~10ms
  • 智能功能:章节检测、转录搜索、填充词过滤、段落自动分段
  • 模型选择:默认 distil-large-v3.5(6 倍速,<1% 精度损失),可选 large-v3 最大精度
  • 双语处理--translate 转英、--multilingual 多语言混合、--language-map 批量多语言

---

显著优点

| 维度 | 优势 |
|------|------|
| **速度** | GPU ~20× 实时,distil 模型 6× 于标准 Whisper |
| **成本** | 完全本地,零 API 费用,离线可用 |
| **精度** | 与 OpenAI 官方模型一致,wav2vec2 对齐达 10ms 级 |
| **功能密度** | 单工具覆盖转录、字幕、说话人分离、章节、搜索、播客 RSS 全流程 |
| **工程成熟** | 自动批处理、ETA 显示、断点续传、VRAM 优化(int8_float16) |

---

局限性与注意事项

硬件依赖

  • GPU(CUDA)是刚需,CPU 仅 ~0.3× 实时,9 分钟音频需 30 分钟
  • macOS 仅 CPU 支持,Apple Silicon 约 3-5× 实时
  • diarization 需额外 ~1-2GB VRAM

功能边界

  • --word-timestamps / --diarize 增加 5-30 秒开销(wav2vec2 加载)
  • 批量章节检测 --chapters-file 仅支持单文件路径,多文件会覆盖
  • RSS 批处理必须配合 -o <dir>,否则输出混杂 stdout

常见陷阱

  • 未指定 --language 浪费自动检测时间
  • 忘记 setup.sh --diarize 导致 diarization 运行时失败
  • HuggingFace Token 未配置或模型协议未接受

---

适合人群

  • 内容创作者:快速生成视频字幕、播客转录稿
  • 研究人员:会议记录、访谈整理、多说话人分析
  • 企业用户:敏感音频本地处理(合规要求)
  • 开发者:OpenAI 兼容 API(via speaches)集成到工作流

---

常规风险

| 风险项 | 等级 | 说明 |
|--------|------|------|
| HuggingFace 模型下载 | 低 | TLS 加密,可固定 `--revision`,支持离线缓存 |
| subprocess 调用 ffmpeg/yt-dlp | 低 | 参数硬编码无注入,需确保二进制来源可信 |
| VRAM 不足 | 中 | 大模型 + diarization 易 OOM,建议 `--compute-type int8_float16` |
| 幻觉文本 | 低 | 音乐/静音区易产生,可用 `--filter-hallucinations` 和 `--temperature 0.0` 缓解 |

Faster Whisper 内容

scripts文件夹
手动下载zip · 54.2 kB
transcribe.pytext/plain
请选择文件