Faster Whisper

🗣️ 20 倍速本地语音转文字神器

OpenAI Whisper 的本地高性能复刻版,GPU 加速下可达 20 倍实时转录速度,支持多语言识别、说话人分离与字幕导出,完全离线运行零 API 成本。

收藏
17.1k
安装
6.4k
版本
1.4.3
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

faster-whisper 是基于 CTranslate2 重新实现的 Whisper 本地语音转文字工具,核心命令为 ./scripts/transcribe audio.mp3,支持音频文件、目录批量处理、YouTube/URL 直链输入。输出格式涵盖纯文本、JSON(含完整元数据与性能统计)、SRT/VTT 字幕。通过 --diarize 启用说话人分离,--word-timestamps 获取词级时间戳(自动启用 wav2vec2 强制对齐,精度从 ~200ms 提升至 ~10ms),--initial-prompt 注入领域术语提升专业词汇识别率。

显著优点

  • 极致速度:相比原版 Whisper 快 4-6 倍,GPU(CUDA)加速下达 ~20 倍实时(10 分钟音频约 30 秒完成);蒸馏模型 distil-large-v3.5 速度再提升 6 倍而 WER 仅损失约 1%
  • 硬件友好:支持 INT8 量化降低显存占用,distil-large 仅需 ~1GB VRAM;CTranslate2 C++ 后端稳定高效
  • 功能完整:内置语音活动检测(VAD)、批量推理优化、99+ 语言自动检测、说话人分离、精准字幕时间轴
  • 零成本离线:本地运行无 API 费用,无需网络(模型首次下载后)

潜在局限

  • 平台限制:GPU 加速仅支持 Linux/WSL2 + NVIDIA CUDA;macOS 仅 CPU 运行(Apple Silicon 约 3-5× 实时,Intel 仅 1-2×)
  • 非实时流式:不适用于实时/流式转录场景
  • 说话人分离门槛:需 HuggingFace 账号授权及额外模型协议同意,首次配置较繁琐
  • 短音频劣势:<10 秒的音频本地启动开销可能超过云端 API 延迟

适合人群

  • 播客/会议/访谈录制者需批量生成文字稿或字幕
  • 多语言内容创作者、翻译工作者
  • 隐私敏感场景(医疗、法律)要求本地离线处理
  • 具备 NVIDIA GPU 的 Linux/WSL2 用户追求极致性价比

常规风险

  • 模型偏见:Whisper 训练数据分布不均,特定口音、低资源语言识别率可能下降
  • 显存溢出:默认 batch-size=8 可能 OOM,需手动调低或使用 int8 量化
  • 依赖维护:pyannote.audio 与 HuggingFace 生态更新可能破坏兼容性
  • 授权合规:说话人分离模型需遵守非商业/研究授权条款,商用需确认许可

Faster Whisper 内容

暂无文件树

手动下载zip · 18.4 kB
contentapplication/octet-stream
请选择文件