核心功能
faster-whisper 是 OpenAI Whisper 的高性能本地化实现,基于 CTranslate2 引擎重新构建,在保持相同识别准确率的前提下实现 4-6倍速度提升。配合 GPU 加速(CUDA),可实现约 20倍实时转录(10分钟音频约30秒完成)。
主要能力
基础转录:支持 99+ 种语言的自动识别与转录,默认使用 distil-large-v3.5 模型(6倍速蒸馏模型,准确率损失<1%)。
字幕生成:原生支持 SRT、WebVTT、ASS(Aegisub)、LRC(歌词)、TTML(广播级标准)等格式,可生成词级时间戳(~10ms精度)。
说话人分离:集成 pyannote.audio,自动标注 "谁说了什么",支持自定义说话人姓名映射。
智能处理:URL/YouTube 自动下载、播客 RSS 批量抓取、章节自动检测、音频降噪与归一化、填充词清理(um/uh等)。
批量与搜索:通配符批量处理、断点续传、ETA预估、转录内容关键词搜索与定位。
显著优点
- 零API成本:完全本地运行,无订阅费用
- 隐私安全:音频不上传云端,适合敏感内容
- 生产级性能:C++后端稳定高效,支持量化降显存
- 灵活输出:多格式并行输出、CSV表格、HTML置信度着色、JSON元数据
- 精准对齐:自动 wav2vec2 强制对齐,词边界精度达10ms
潜在局限
- 硬件依赖:CPU转录极慢(~0.3倍实时),强烈依赖NVIDIA GPU
- macOS无加速:Apple Silicon仅CPU运行(CTranslate2不支持Metal)
- 初始配置:说话人分离需 HuggingFace 认证与模型许可
- 显存占用:大模型+分离需 ~3GB VRAM,低显存需降质或量化
- 长音频流式:
--stream模式下禁用分离与词对齐
适合人群
- 内容创作者(播客、视频字幕制作)
- 企业与研究机构(会议记录、访谈整理)
- 隐私敏感场景(医疗、法律、金融转录)
- 多语言内容处理者(自动语言检测、批量翻译转录)
常规风险
- 模型幻觉:音乐/静音处可能生成虚假文本,需
--filter-hallucinations或调低 temperature - VAD误切:语音活动检测可能切分不当,需调参
--vad-threshold - 蒸馏模型重复:需自动禁用
condition_on_previous_text(脚本已处理) - 依赖维护:yt-dlp、ffmpeg、pyannote 等可选组件需单独管理