Faster Whisper

🗣️ 极速离线语音转文字,本地 GPU 加速

audio-processing榜 #1

基于 CTranslate2 的本地语音转文字工具,比 OpenAI Whisper 快 4-6 倍,GPU 加速可达 20 倍实时转录,支持字幕生成与说话人识别

收藏
24.6k
安装
6.4k
版本
1.4.1
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心功能

faster-whisper 是 OpenAI Whisper 的本地化高性能实现,基于 CTranslate2 引擎重构,在保持相同模型权重和识别精度的前提下实现 4-6 倍加速,配合 GPU(CUDA)可达 ~20 倍实时转录速度(10 分钟音频约 30 秒完成)。

显著优势

  • 极致速度:蒸馏模型(distil-large-v3.5)较标准模型快 6.3 倍,WER 仅差约 1%
  • 完全离线:本地运行,零 API 费用,数据隐私有保障
  • 多格式输出:原生支持纯文本、JSON、SRT、WebVTT 字幕格式
  • 智能增强:可选说话人分离(diarization)、精确词级时间戳(~10ms,基于 wav2vec2 强制对齐)、URL/YouTube 直链下载
  • 批量处理:支持 glob 模式、目录遍历、断点续传(skip-existing)

潜在局限

  • 硬件依赖:无 GPU 时速度骤降至 ~1x 实时,CPU 体验较差
  • 平台限制:CUDA 加速仅限 Linux/WSL2;macOS 仅支持 CPU 推理
  • 说话人分离门槛:需额外配置 pyannote.audio、HuggingFace Token 及模型授权
  • 非实时设计:不适合流式转录场景
  • 首载延迟:模型首次下载至本地缓存需等待(~1-2GB)

适合人群

  • 播客/会议/讲座内容创作者需快速生成字幕或文字稿
  • 企业/团队需批量处理音视频资产,注重数据不出域
  • 视频剪辑、翻译、学术研究需精确时间轴对齐
  • 英语内容用户可选用 distilled English-only 模型进一步提速

常规风险

  • 内存溢出:大模型 + 大批量易触发 OOM,需调低 --batch-size 或使用 INT8 量化
  • 依赖链复杂:ffmpeg、Python 3.10+、CUDA 驱动、可选的 yt-dlp/pyannote 任一缺失均可能导致失败
  • 模型偏见:Whisper 训练数据偏差可能放大特定口音/术语的识别错误,可用 --initial-prompt 缓解
  • 精确对齐成本--precise 模式增加 5-10 秒固定开销,非必要不建议开启

技术亮点

采用 BatchedInferencePipeline 与 VAD(语音活动检测)默认开启,蒸馏模型在 RTX 3070 上可达 21× 实时因子;支持 99+ 语言自动检测及领域术语预注入(initial-prompt)以提升专业词汇识别率。

Faster Whisper 内容

暂无文件树

手动下载zip · 18.4 kB
contentapplication/octet-stream
请选择文件