使用说明

核心用法

faster-whisper 是 OpenAI Whisper 的 CTranslate2 重实现版本，专为本地高效语音转文字设计。通过 ./scripts/transcribe audio.mp3 即可快速启动转录，默认使用 distil-large-v3.5 模型实现速度与精度的最佳平衡。支持多种输出格式（纯文本、JSON、带时间戳字幕），并提供 hotwords 词汇增强、自动语言检测、语音活动检测（VAD）等高级功能。

显著优点

极致速度：相比原版 Whisper 提升 4-6 倍，GPU 加速（CUDA）下可达约 20 倍实时转录——10 分钟音频仅需 30 秒完成。蒸馏模型（distil-系列）在仅损失约 1% WER（词错误率）的前提下再提速 6 倍。distil-large-v3.5 以 7.08% WER 成为默认推荐，兼顾效率与质量。

硬件友好：支持 INT8 量化降低显存占用，模型体积从 1.5GB（large-v3）到 166MB（distil-small.en）灵活选择。自动检测 GPU 并优化计算类型，无需复杂配置。

功能完备：99+ 语言自动识别、词级时间戳生成（适合字幕制作）、批量文件处理、热词增强（hotwords）提升专业术语识别率。完全离线运行，零 API 费用。

潜在局限

平台限制：macOS 仅支持 CPU 后端（无 Metal/CUDA 加速），Apple Silicon 虽可达 3-5 倍实时，但纯 CPU 环境（Linux/macOS Intel）性能骤降至 1 倍或更低，实用性受限。

场景限制：不支持实时流式转录（streaming），需等待完整音频文件；首运行需下载模型（756MB-1.5GB）至本地缓存；短音频（<10 秒）的本地启动开销可能高于云端 API 延迟。

资源门槛：大模型（large-v3）需约 2GB 显存/4GB 内存，低端 GPU 易触发 OOM，需手动降参（--batch-size 4 或 int8 量化）。

适合人群

需要批量处理播客、会议记录、采访、讲座视频的内容创作者与研究者
注重数据隐私、拒绝云端 API 的企业用户与隐私敏感场景
多语言内容制作团队（自动语言检测+字幕生成）
配备 NVIDIA GPU 的 Linux/WSL2 用户（性能最大化）

常规风险

模型偏见：继承 Whisper 训练数据的语言与口音偏见，低资源语言、方言、技术术语识别可能不准；建议对关键内容人工校对。

硬件依赖陷阱：未正确安装 CUDA 驱动时静默回退至 CPU，导致 10-20 倍性能损失。需主动验证 nvidia-smi 与 PyTorch CUDA 可用性。

存储与缓存：模型文件缓存在 ~/.cache/huggingface/，多用户环境需注意权限与磁盘空间；默认蒸馏模型约 756MB，全量模型达 1.5GB。

精度-速度权衡：蒸馏模型虽快，但复杂场景（噪音、多人对话、专业术语密集）建议切换 large-v3 或提高 beam-size（5→10）。

依赖维护：依赖 ffmpeg、Python 3.10+ 及特定 PyTorch CUDA 版本，跨平台（尤其 WSL2）环境配置偶有摩擦。

audio transcription whisper speech-to-text ml cuda gpu local-ai offline multilingual subtitle meeting-notes

Faster Whisper 内容

暂无文件树

手动下载zip · 9.4 kB

contentapplication/octet-stream

请选择文件