使用说明

核心用法

faster-whisper 是基于 CTranslate2 重新实现的 Whisper 本地语音转文字工具，核心命令为 ./scripts/transcribe audio.mp3，支持音频文件、目录批量处理、YouTube/URL 直链输入。输出格式涵盖纯文本、JSON（含完整元数据与性能统计）、SRT/VTT 字幕。通过 --diarize 启用说话人分离，--word-timestamps 获取词级时间戳（自动启用 wav2vec2 强制对齐，精度从 ~200ms 提升至 ~10ms），--initial-prompt 注入领域术语提升专业词汇识别率。

显著优点

极致速度：相比原版 Whisper 快 4-6 倍，GPU（CUDA）加速下达 ~20 倍实时（10 分钟音频约 30 秒完成）；蒸馏模型 distil-large-v3.5 速度再提升 6 倍而 WER 仅损失约 1%
硬件友好：支持 INT8 量化降低显存占用，distil-large 仅需 ~1GB VRAM；CTranslate2 C++ 后端稳定高效
功能完整：内置语音活动检测（VAD）、批量推理优化、99+ 语言自动检测、说话人分离、精准字幕时间轴
零成本离线：本地运行无 API 费用，无需网络（模型首次下载后）

潜在局限

平台限制：GPU 加速仅支持 Linux/WSL2 + NVIDIA CUDA；macOS 仅 CPU 运行（Apple Silicon 约 3-5× 实时，Intel 仅 1-2×）
非实时流式：不适用于实时/流式转录场景
说话人分离门槛：需 HuggingFace 账号授权及额外模型协议同意，首次配置较繁琐
短音频劣势：<10 秒的音频本地启动开销可能超过云端 API 延迟

适合人群

播客/会议/访谈录制者需批量生成文字稿或字幕
多语言内容创作者、翻译工作者
隐私敏感场景（医疗、法律）要求本地离线处理
具备 NVIDIA GPU 的 Linux/WSL2 用户追求极致性价比

常规风险

模型偏见：Whisper 训练数据分布不均，特定口音、低资源语言识别率可能下降
显存溢出：默认 batch-size=8 可能 OOM，需手动调低或使用 int8 量化
依赖维护：pyannote.audio 与 HuggingFace 生态更新可能破坏兼容性
授权合规：说话人分离模型需遵守非商业/研究授权条款，商用需确认许可

audio transcription speech-to-text whisper gpu-acceleration subtitles diarization ml local-ai open-source

Faster Whisper 内容

暂无文件树

手动下载zip · 18.4 kB

contentapplication/octet-stream

请选择文件