Faster Whisper

🗣️ 20 倍速本地语音转文字神器

OpenAI Whisper 的本地高性能复刻版,GPU 加速下可达 20 倍实时转录速度,支持多语言识别、说话人分离与字幕导出,完全离线运行零 API 成本。

收藏
17.1k
安装
6.4k
版本
1.4.3
CLS 安全性认证2026-05-21
点击查看完整报告 >

使用说明

核心用法

faster-whisper 是基于 CTranslate2 重新实现的 Whisper 本地语音转文字工具,核心命令为 ./scripts/transcribe audio.mp3,支持音频文件、目录批量处理、YouTube/URL 直链输入。输出格式涵盖纯文本、JSON(含完整元数据与性能统计)、SRT/VTT 字幕。通过 --diarize 启用说话人分离,--word-timestamps 获取词级时间戳(自动启用 wav2vec2 强制对齐,精度从 ~200ms 提升至 ~10ms),--initial-prompt 注入领域术语提升专业词汇识别率。

显著优点

  • 极致速度:相比原版 Whisper 快 4-6 倍,GPU(CUDA)加速下达 ~20 倍实时(10 分钟音频约 30 秒完成);蒸馏模型 distil-large-v3.5 速度再提升 6 倍而 WER 仅损失约 1%
  • 硬件友好:支持 INT8 量化降低显存占用,distil-large 仅需 ~1GB VRAM;CTranslate2 C++ 后端稳定高效
  • 功能完整:内置语音活动检测(VAD)、批量推理优化、99+ 语言自动检测、说话人分离、精准字幕时间轴
  • 零成本离线:本地运行无 API 费用,无需网络(模型首次下载后)

潜在局限

  • 平台限制:GPU 加速仅支持 Linux/WSL2 + NVIDIA CUDA;macOS 仅 CPU 运行(Apple Silicon 约 3-5× 实时,Intel 仅 1-2×)
  • 非实时流式:不适用于实时/流式转录场景
  • 说话人分离门槛:需 HuggingFace 账号授权及额外模型协议同意,首次配置较繁琐
  • 短音频劣势:<10 秒的音频本地启动开销可能超过云端 API 延迟

适合人群

  • 播客/会议/访谈录制者需批量生成文字稿或字幕
  • 多语言内容创作者、翻译工作者
  • 隐私敏感场景(医疗、法律)要求本地离线处理
  • 具备 NVIDIA GPU 的 Linux/WSL2 用户追求极致性价比

常规风险

  • 模型偏见:Whisper 训练数据分布不均,特定口音、低资源语言识别率可能下降
  • 显存溢出:默认 batch-size=8 可能 OOM,需手动调低或使用 int8 量化
  • 依赖维护:pyannote.audio 与 HuggingFace 生态更新可能破坏兼容性
  • 授权合规:说话人分离模型需遵守非商业/研究授权条款,商用需确认许可

安全解读

核心用法

Faster-whisper 是对 OpenAI Whisper 的 CTranslate2 重实现,主打4-6倍速度提升而保持相同准确度。通过本地GPU加速可实现约20倍实时转录(10分钟音频30秒完成)。核心工作流为:./scripts/transcribe audio.mp3 即可快速获得文本结果。

关键功能覆盖:

  • 基础转录:默认使用 distil-large-v3.5 模型,自动启用VAD和批处理
  • 字幕生成--format srt/vtt 导出标准字幕,自动启用词级时间戳
  • 说话人分离--diarize 标识不同说话人(需 pyannote.audio)
  • URL/YouTube输入:自动下载并转录在线音视频
  • 批量处理:支持glob模式、目录遍历及断点续传
  • 领域术语优化--initial-prompt 提升专业词汇识别率

模型选择策略: distilled 系列(distil-large-v3.5等)在仅损失约1% WER的情况下提供6倍速提升,是默认推荐;仅在追求极限准确度时选用 large-v3。

显著优点

1. 极致速度:CTranslate2 C++后端+量化优化,GPU场景可达20倍实时
2. 准确度无损:与原版Whisper使用相同权重,识别质量一致

3. 隐私安全:完全本地处理,无API费用,离线可用

4. 输出灵活:原生支持纯文本、JSON(含统计信息)、SRT、VTT

5. 精准对齐:自动 wav2vec2 强制对齐,词级时间戳精度达~10ms

6. 生态完整:内置VAD、批量推理、多语言自动检测、说话人分离

局限性与风险

| 限制类型 | 具体说明 |
|---------|---------|
| **实时性不支持** | 非流式设计,无法用于实时语音转写 |
| **macOS性能瓶颈** | Apple Silicon/Intel 仅CPU运行,速度降至3-5倍/1-2倍实时 |
| **显存需求** | large模型需约2GB VRAM,diarization额外消耗1-2GB |
| **首次启动成本** | 需下载756MB+模型,且依赖ffmpeg、Python 3.10+环境 |
| **说话人分离门槛** | 需HuggingFace token及模型授权,增加配置复杂度 |

运行风险

  • 默认批处理可能OOM,需手动调低 --batch-size
  • --word-timestamps--diarize 分别增加5-10秒、20-30秒固定开销
  • URL下载依赖yt-dlp,网络不稳定时可能失败

适合人群

  • 内容创作者:快速生成视频字幕、播客文字稿
  • 研究员/记者:批量处理采访录音、会议纪要的转录
  • 企业用户:本地化会议记录,避免敏感音频上传云端
  • 开发者:需要可编程的语音转文本管道(JSON输出含完整元数据)

不适合:实时字幕、纯CPU环境的大批量处理、无技术背景且不愿配置Python环境的终端用户。

安全评估

经 CLS-Certify v2.1.0 扫描获 A级 认证(80分)。代码无恶意模式,subprocess调用仅限于ffmpeg(音频处理)和yt-dlp(用户可控的URL下载),无命令注入风险。数据完全本地处理,符合GDPR数据最小化原则。来源为GitHub个人开发者(T3信任级),建议生产环境使用前审查源码。

主要外部依赖:HuggingFace Hub(模型下载)、PyTorch官方源(CUDA支持),均为可信服务。

Faster Whisper 内容

scripts文件夹
手动下载zip · 18.4 kB
transcribe.pytext/plain
请选择文件