Faster Whisper

🗣️ 极速本地语音转文字,20倍实时

ai榜 #1

本地高性能语音转文字工具,基于CTranslate2实现,速度比OpenAI Whisper快4-6倍,GPU加速可达20倍实时转录,支持多语言、说话人分离、字幕生成。

收藏
18.6k
安装
6.4k
版本
1.4.5
CLS 安全扫描中
预计需要 3 分钟...

使用说明

Faster-Whisper 综合评估

核心用法

Faster-Whisper 是 OpenAI Whisper 的 CTranslate2 高性能重实现,专用于本地语音识别转文字。基础命令 ./scripts/transcribe audio.mp3 即可完成转录,支持 SRT/VTT 字幕输出(--format srt)、说话人分离(--diarize)、YouTube/URL 自动下载、批量处理等场景。默认使用 distil-large-v3.5 模型,在保持与原版 Whisper 相同精度的前提下实现 4-6 倍加速,GPU 环境下可达约 20 倍实时转录速度。

显著优点

  • 速度领先:CTranslate2 后端 + 蒸馏模型实现 6 倍以上加速,RTX 3070 上 21 分钟音频仅需 24 秒
  • 精度无损:与 OpenAI Whisper 完全一致的模型权重,distil 系列仅 <1% WER 差异
  • 功能完整:内置 VAD、批量推理、自动量化(INT8)、多语言支持(99+ 语言)
  • 扩展性强:原生支持字幕格式、说话人分离(pyannote.audio)、词级时间戳(wav2vec2 对齐至 ~10ms)
  • 零 API 成本:完全本地运行,离线可用,适合敏感内容处理

潜在缺点与局限

  • 平台限制:macOS 仅 CPU 运行(无 CUDA/MPS 加速),速度降至 3-5 倍实时;Windows 需 WSL2
  • 硬件依赖:无 GPU 时转录速度急剧下降(CPU 约 0.3 倍实时,9 分钟视频需 30 分钟)
  • 显存门槛:大模型 + 分离功能需 2-4GB VRAM,低显存设备需降级模型或调整 batch size
  • 非实时设计:不支持流式输入,仅适合文件/批处理场景
  • 首次启动成本:需下载模型文件(756MB-1.5GB)至 HuggingFace 缓存

适合人群

  • 播客/会议/采访记录者、字幕制作人员、研究人员、需要处理敏感语音数据的隐私敏感用户
  • 具备 NVIDIA GPU 的 Linux/WSL2 用户可获得最佳体验

常规风险

  • 隐私合规:本地处理避免云端泄露,但 diarization 功能需 HuggingFace 认证及模型许可协议
  • 版权内容:YouTube 下载功能需遵守平台 ToS 及当地版权法规
  • 依赖管理:需维护 ffmpeg、Python 环境、CUDA 驱动链,版本冲突可能导致 GPU 检测失败 fallback 至 CPU
  • 质量波动:嘈杂环境、口音、专业术语需配合 --initial-prompt 调优,低置信度过滤可能误删有效内容

Faster Whisper 内容

暂无文件树

手动下载zip · 18.4 kB
contentapplication/octet-stream
请选择文件