Faster Whisper

🗣️ 极速本地语音转文字 20 倍实时

CTranslate2 重实现的本地 Whisper 语音识别,速度提升 4-6 倍,GPU 下可达 20 倍实时转录,支持 99+ 语言和词级时间戳

收藏
22k
安装
6.4k
版本
1.2.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

faster-whisper 是 OpenAI Whisper 的 CTranslate2 重实现版本,专为本地高效语音转文字设计。通过 ./scripts/transcribe audio.mp3 即可快速启动转录,默认使用 distil-large-v3.5 模型实现速度与精度的最佳平衡。支持多种输出格式(纯文本、JSON、带时间戳字幕),并提供 hotwords 词汇增强、自动语言检测、语音活动检测(VAD)等高级功能。

显著优点

极致速度:相比原版 Whisper 提升 4-6 倍,GPU 加速(CUDA)下可达约 20 倍实时转录——10 分钟音频仅需 30 秒完成。蒸馏模型(distil-系列)在仅损失约 1% WER(词错误率)的前提下再提速 6 倍。distil-large-v3.5 以 7.08% WER 成为默认推荐,兼顾效率与质量。

硬件友好:支持 INT8 量化降低显存占用,模型体积从 1.5GB(large-v3)到 166MB(distil-small.en)灵活选择。自动检测 GPU 并优化计算类型,无需复杂配置。

功能完备:99+ 语言自动识别、词级时间戳生成(适合字幕制作)、批量文件处理、热词增强(hotwords)提升专业术语识别率。完全离线运行,零 API 费用。

潜在局限

平台限制:macOS 仅支持 CPU 后端(无 Metal/CUDA 加速),Apple Silicon 虽可达 3-5 倍实时,但纯 CPU 环境(Linux/macOS Intel)性能骤降至 1 倍或更低,实用性受限。

场景限制:不支持实时流式转录(streaming),需等待完整音频文件;首运行需下载模型(756MB-1.5GB)至本地缓存;短音频(<10 秒)的本地启动开销可能高于云端 API 延迟。

资源门槛:大模型(large-v3)需约 2GB 显存/4GB 内存,低端 GPU 易触发 OOM,需手动降参(--batch-size 4 或 int8 量化)。

适合人群

  • 需要批量处理播客、会议记录、采访、讲座视频的内容创作者与研究者
  • 注重数据隐私、拒绝云端 API 的企业用户与隐私敏感场景
  • 多语言内容制作团队(自动语言检测+字幕生成)
  • 配备 NVIDIA GPU 的 Linux/WSL2 用户(性能最大化)

常规风险

模型偏见:继承 Whisper 训练数据的语言与口音偏见,低资源语言、方言、技术术语识别可能不准;建议对关键内容人工校对。

硬件依赖陷阱:未正确安装 CUDA 驱动时静默回退至 CPU,导致 10-20 倍性能损失。需主动验证 nvidia-smi 与 PyTorch CUDA 可用性。

存储与缓存:模型文件缓存在 ~/.cache/huggingface/,多用户环境需注意权限与磁盘空间;默认蒸馏模型约 756MB,全量模型达 1.5GB。

精度-速度权衡:蒸馏模型虽快,但复杂场景(噪音、多人对话、专业术语密集)建议切换 large-v3 或提高 beam-size(5→10)。

依赖维护:依赖 ffmpeg、Python 3.10+ 及特定 PyTorch CUDA 版本,跨平台(尤其 WSL2)环境配置偶有摩擦。

Faster Whisper 内容

暂无文件树

手动下载zip · 9.4 kB
contentapplication/octet-stream
请选择文件