Faster Whisper

🗣️ 本地 AI 语音转文字,20 倍速离线转录

media-processing榜 #2

faster-whisper 是 OpenAI Whisper 的本地优化实现,CTranslate2 后端实现 4-6 倍加速,GPU 下可达 20 倍实时转录,支持字幕生成、说话人分离、批量处理与 YouTube 直链输入。

收藏
30.8k
安装
6.4k
版本
1.4.4
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

faster-whisper 提供基于 CTranslate2 的高性能语音转文字能力,核心命令为 ./scripts/transcribe <输入>。输入支持本地音频/视频文件、目录批量处理、glob 模式,以及 YouTube/直链 URL(自动下载)。输出格式涵盖纯文本、JSON(含完整元数据)、SRT 与 VTT 字幕。

关键功能通过 CLI 标志控制:--format srt/vtt 生成字幕,--word-timestamps 启用词级时间戳(自动触发 wav2vec2 对齐,精度约 10ms),--diarize 启用说话人分离(依赖 pyannote.audio)。--initial-prompt 可注入领域术语提升专业词汇识别率。

模型选择默认 distil-large-v3.5,在速度与准确率间取得最佳平衡。Distilled 系列模型相比标准 Whisper 实现约 6 倍加速,WER 差异仅约 1%。资源受限场景可选用 distil-medium.en(英语专用)或 distil-small.en(边缘设备)。最大精度需求使用 large-v3

显著优点

性能领先:CTranslate2 后端 + GPU 加速实现约 20 倍实时转录(10 分钟音频 30 秒完成),批量推理(BatchedInferencePipeline)再提升约 3 倍吞吐量。

功能完整:原生支持 SRT/VTT 字幕导出、精确词级对齐、说话人分离、99+ 语言自动检测、YouTube/URL 直转、批量处理与断点续传(--skip-existing)。

成本与隐私:完全本地运行,无 API 费用,无需联网(首次模型下载后),适合敏感会议与隐私场景。

模型优化:Distilled 模型以 1% 准确率损失换取 6 倍速度提升,INT8 量化进一步降低内存占用,支持消费级 GPU 部署。

潜在缺点与局限性

硬件依赖:无 GPU 时速度骤降(CPU 约 0.3-1 倍实时),macOS 仅 CPU 支持(Apple Silicon 约 3-5 倍实时,Intel 仅 1-2 倍)。

功能开销:说话人分离增加 20-30 秒处理时间,词级时间戳增加 5-10 秒 wav2vec2 对齐开销,不适合超短音频或实时流式场景。

配置门槛:说话人分离需 HuggingFace Token 与模型协议接受,GPU 环境需正确安装 CUDA 版 PyTorch,否则易误用 CPU 模式。

语言限制.en 模型仅支持英语;自动语言检测虽支持 99+ 语言,但指定语言可跳过检测节省约 10-20% 时间。

适合人群

  • 内容创作者(播客、视频字幕制作)
  • 企业与研究者(会议记录、访谈转录、学术讲座整理)
  • 隐私敏感用户(医疗、法律、政府场景,拒绝云端 API)
  • 多语言内容处理者(跨国会议、多语言视频归档)
  • 批量处理需求者(播客网络、媒体档案数字化)

不适合实时直播转录、纯云端无本地算力环境、以及追求零配置开箱即用的非技术用户。

常规风险

隐私合规风险:说话人分离依赖 pyannote.audio,模型从 HuggingFace 下载,需接受用户协议并配置 Token,企业环境需审查第三方模型许可条款。

数据残留:YouTube/URL 下载依赖 yt-dlp,临时文件需确认清理;HuggingFace 模型缓存于 ~/.cache/huggingface/,共享设备需注意权限隔离。

输出质量波动:低质量音频、强背景噪音、重叠语音场景下,自动过滤(--min-confidence)可能误删有效内容或保留错误转录,建议关键场景人工复核。

资源占用large-v3 模型约需 4GB RAM/2GB VRAM,说话人分离再增 1-2GB VRAM,低配 GPU 易触发 OOM,需主动降低 --batch-size 或换用 INT8 计算类型。

Faster Whisper 内容

暂无文件树

手动下载zip · 18.4 kB
contentapplication/octet-stream
请选择文件