Faster Whisper

🗣️ 极速离线语音转录 · 20倍实时

audio榜 #2

基于CTranslate2的Whisper加速实现,本地离线转录,GPU加速可达20倍实时速度,支持99+语言和词级时间戳。

收藏
19.9k
安装
6.4k
版本
1.1.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

faster-whisper 是OpenAI Whisper的本地化高性能替代方案,通过CTranslate2推理引擎实现4-6倍加速,GPU环境下可达20倍实时转录(10分钟音频约30秒完成)。主要功能包括:

  • 基础转录./scripts/transcribe audio.mp3,默认启用批处理推理和VAD语音活动检测
  • 多语言支持:自动检测99+语言,或指定--language加速处理
  • 精确定位--word-timestamps生成词级时间戳,适合字幕制作
  • 批量处理:脚本化循环处理大量文件,JSON输出便于后续分析
  • 热词优化--hotwords提升专业术语识别率

模型选择策略

| 场景 | 推荐模型 | 特点 |
|------|---------|------|
| 默认平衡 | distil-large-v3 | 6.3倍速,仅1%误差损失,2GB内存 |
| 极致准确 | large-v3-turbo | 809M参数,自动多语言 |
| 纯英文快速 | distil-medium.en | 6.8倍速,394M轻量 |
| 资源受限 | distil-small.en | 边缘设备适用 |

关键配置参数

  • --beam-size 5(默认)到10(高精度场景)
  • --batch-size 8(显存不足时降至4)
  • --compute-type int8(CPU模式4倍加速)

显著优点

1. 成本归零:完全本地运行,无API调用费用,离线可用
2. 隐私安全:音频数据不出本地,满足敏感内容处理需求

3. 速度碾压:GPU批处理模式下,RTX 3070转录9分钟视频仅需27秒

4. 蒸馏模型:6倍速度提升换取<1%的WER(词错误率)增长,性价比极高

5. 生产级稳定:基于C++后端CTranslate2,内存占用较原版降低50%+

6. 灵活输出:支持纯文本、JSON、SRT/VTT字幕格式

局限性与缺点

  • 平台限制:macOS仅CPU运行(Apple Silicon约3-5倍实时),无Metal加速
  • 非实时设计:不适合流式转录场景,需完整音频文件
  • 首次启动成本:模型首次下载需等待(756MB-1.5GB)
  • 硬件门槛:无GPU时体验骤降,CPU模式10-20倍慢于GPU
  • 中文表现: Whisper系列对中文识别准确率低于英文,专业术语需热词调优
  • 长音频内存压力:默认批处理对超长文件可能OOM

适合人群

  • 内容创作者:批量处理播客、访谈、会议录音生成字幕
  • 研究人员:需要离线转录敏感访谈数据的学术场景
  • 企业IT:构建内部语音归档系统,规避云服务合规风险
  • 多语言团队:统一工具处理跨国会议多语种内容
  • 成本敏感用户:高频转录需求下避免OpenAI API累积费用

常规风险

| 风险类型 | 具体表现 | 缓解措施 |
|---------|---------|---------|
| 资源耗尽 | GPU显存不足导致OOM | 降级模型、调小batch-size、使用int8量化 |
| 环境配置失败 | CUDA/PyTorch版本不匹配 | 严格遵循setup.sh自动检测,手动指定cu121/cu118 |
| 转录质量落差 | 嘈杂环境、口音、专业领域错误率高 | 启用VAD降噪、添加hotwords、换large-v3模型 |
| 缓存膨胀 | HuggingFace模型缓存占用数十GB | 定期清理`~/.cache/huggingface/` |
| 误用场景 | 尝试实时流式转录导致延迟 | 明确改用whisper-streaming等专用工具 |

安装前必读:确认ffmpeg已安装,Python≥3.10,WSL2用户需预先配置NVIDIA CUDA驱动。

Faster Whisper 内容

暂无文件树

手动下载zip · 9.3 kB
contentapplication/octet-stream
请选择文件