核心用法
faster-whisper 是 OpenAI Whisper 的 CTranslate2 重实现版本,提供本地离线语音转文字服务。基础命令 ./scripts/transcribe audio.mp3 即可快速启动,支持多种输入源(本地文件、YouTube/URL、播客RSS)、批量处理及实时流式输出。
主要功能:
- 极速转录:GPU加速下可达~20倍实时速度(10分钟音频约30秒完成)
- 多格式字幕:SRT、VTT、ASS、LRC、TTML(广播级标准)、CSV表格输出
- 说话人分离:通过
--diarize标识不同说话人,支持自定义真实姓名 - 精准时间戳:自动启用 wav2vec2 强制对齐,词级精度达~10ms
- 智能增强:噪声消除、音量归一化、幻觉过滤、填充词去除
- 章节检测:基于静音间隙自动识别内容分段
- 全文搜索:
--search快速定位关键词时间戳
模型选择策略:默认使用 distil-large-v3.5(~6.3倍速,WER 7.08%),追求极致精度选 large-v3,资源受限选 distil-medium.en 或 distil-small.en。
显著优点
- 完全离线:零API成本,隐私安全,无需网络连接(模型下载后)
- 速度领先:比原版 Whisper 快4-6倍,蒸馏模型再提速6倍
- 硬件友好:INT8量化降低显存占用,RTX 3070 推荐
int8_float16混合模式 - 生产级稳定:CTranslate2 C++后端,支持批处理、断点续传、ETA预估
- 多语言支持:99+语言自动检测,支持翻译至英语及多语言混输
潜在缺点与局限
- GPU依赖:CPU模式极慢(~0.3倍实时),无NVIDIA显卡体验骤降
- 模型体积:大模型需~2GB显存/内存,低配设备受限
- macOS无加速:Apple Silicon仅CPU运行(CTranslate2无MPS支持)
- 说话人分离门槛:需额外安装 pyannote.audio、HuggingFace token 及模型授权
- 首次启动慢:需下载模型文件(缓存后恢复)
- 长音频内存压力:默认批处理,极端长文件可能OOM需调低
--batch-size
适合人群
- 内容创作者:快速生成视频字幕、播客文稿、会议记录
- 研究人员:批量处理访谈录音、多语言语料构建
- 企业用户:本地化部署满足数据合规要求
- 开发者:OpenAI兼容API模式(speaches)便于集成
- 多语言工作者:跨语言内容翻译、字幕本地化
常规风险
- 模型幻觉:音乐/静音区可能产生虚假文本,
--filter-hallucinations和--temperature 0.0可缓解 - 转录错误:专业术语识别不佳,需配合
--initial-prompt或--hotwords优化 - 隐私泄露风险:虽本地运行,但
--diarize需连接HuggingFace验证模型权限 - 输出覆盖:批量模式未用
--skip-existing可能覆盖已有结果 - 版权敏感:URL下载功能可能涉及受保护内容,用户需自行确保合法使用