Faster Whisper

🗣️ 极速本地语音转文字,AI字幕一键生成

audio榜 #2

本地高性能语音转文字,4-6倍速于OpenAI Whisper,支持GPU加速、多语言、说话人分离及多种字幕格式输出。

收藏
31k
安装
6.4k
版本
1.5.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

faster-whisper 是 OpenAI Whisper 的 CTranslate2 重实现版本,提供本地离线语音转文字服务。基础命令 ./scripts/transcribe audio.mp3 即可快速启动,支持多种输入源(本地文件、YouTube/URL、播客RSS)、批量处理及实时流式输出。

主要功能:

  • 极速转录:GPU加速下可达~20倍实时速度(10分钟音频约30秒完成)
  • 多格式字幕:SRT、VTT、ASS、LRC、TTML(广播级标准)、CSV表格输出
  • 说话人分离:通过 --diarize 标识不同说话人,支持自定义真实姓名
  • 精准时间戳:自动启用 wav2vec2 强制对齐,词级精度达~10ms
  • 智能增强:噪声消除、音量归一化、幻觉过滤、填充词去除
  • 章节检测:基于静音间隙自动识别内容分段
  • 全文搜索--search 快速定位关键词时间戳

模型选择策略:默认使用 distil-large-v3.5(~6.3倍速,WER 7.08%),追求极致精度选 large-v3,资源受限选 distil-medium.endistil-small.en

显著优点

  • 完全离线:零API成本,隐私安全,无需网络连接(模型下载后)
  • 速度领先:比原版 Whisper 快4-6倍,蒸馏模型再提速6倍
  • 硬件友好:INT8量化降低显存占用,RTX 3070 推荐 int8_float16 混合模式
  • 生产级稳定:CTranslate2 C++后端,支持批处理、断点续传、ETA预估
  • 多语言支持:99+语言自动检测,支持翻译至英语及多语言混输

潜在缺点与局限

  • GPU依赖:CPU模式极慢(~0.3倍实时),无NVIDIA显卡体验骤降
  • 模型体积:大模型需~2GB显存/内存,低配设备受限
  • macOS无加速:Apple Silicon仅CPU运行(CTranslate2无MPS支持)
  • 说话人分离门槛:需额外安装 pyannote.audio、HuggingFace token 及模型授权
  • 首次启动慢:需下载模型文件(缓存后恢复)
  • 长音频内存压力:默认批处理,极端长文件可能OOM需调低 --batch-size

适合人群

  • 内容创作者:快速生成视频字幕、播客文稿、会议记录
  • 研究人员:批量处理访谈录音、多语言语料构建
  • 企业用户:本地化部署满足数据合规要求
  • 开发者:OpenAI兼容API模式(speaches)便于集成
  • 多语言工作者:跨语言内容翻译、字幕本地化

常规风险

  • 模型幻觉:音乐/静音区可能产生虚假文本,--filter-hallucinations--temperature 0.0 可缓解
  • 转录错误:专业术语识别不佳,需配合 --initial-prompt--hotwords 优化
  • 隐私泄露风险:虽本地运行,但 --diarize 需连接HuggingFace验证模型权限
  • 输出覆盖:批量模式未用 --skip-existing 可能覆盖已有结果
  • 版权敏感:URL下载功能可能涉及受保护内容,用户需自行确保合法使用

Faster Whisper 内容

暂无文件树

手动下载zip · 54.0 kB
contentapplication/octet-stream
请选择文件