skills/theplasmak/Faster Whisper

Faster Whisper

🗣️ 极速离线语音转文字，本地 GPU 加速

audio-processing榜 #1

基于 CTranslate2 的本地语音转文字工具，比 OpenAI Whisper 快 4-6 倍，GPU 加速可达 20 倍实时转录，支持字幕生成与说话人识别

收藏

24.6k

安装

6.4k

版本

1.4.1

CLS 安全扫描中

预计需要 3 分钟...

使用说明

核心功能

faster-whisper 是 OpenAI Whisper 的本地化高性能实现，基于 CTranslate2 引擎重构，在保持相同模型权重和识别精度的前提下实现 4-6 倍加速，配合 GPU（CUDA）可达 ~20 倍实时转录速度（10 分钟音频约 30 秒完成）。

显著优势

极致速度：蒸馏模型（distil-large-v3.5）较标准模型快 6.3 倍，WER 仅差约 1%
完全离线：本地运行，零 API 费用，数据隐私有保障
多格式输出：原生支持纯文本、JSON、SRT、WebVTT 字幕格式
智能增强：可选说话人分离（diarization）、精确词级时间戳（~10ms，基于 wav2vec2 强制对齐）、URL/YouTube 直链下载
批量处理：支持 glob 模式、目录遍历、断点续传（skip-existing）

潜在局限

硬件依赖：无 GPU 时速度骤降至 ~1x 实时，CPU 体验较差
平台限制：CUDA 加速仅限 Linux/WSL2；macOS 仅支持 CPU 推理
说话人分离门槛：需额外配置 pyannote.audio、HuggingFace Token 及模型授权
非实时设计：不适合流式转录场景
首载延迟：模型首次下载至本地缓存需等待（~1-2GB）

适合人群

播客/会议/讲座内容创作者需快速生成字幕或文字稿
企业/团队需批量处理音视频资产，注重数据不出域
视频剪辑、翻译、学术研究需精确时间轴对齐
英语内容用户可选用 distilled English-only 模型进一步提速

常规风险

内存溢出：大模型 + 大批量易触发 OOM，需调低 --batch-size 或使用 INT8 量化
依赖链复杂：ffmpeg、Python 3.10+、CUDA 驱动、可选的 yt-dlp/pyannote 任一缺失均可能导致失败
模型偏见：Whisper 训练数据偏差可能放大特定口音/术语的识别错误，可用 --initial-prompt 缓解
精确对齐成本：--precise 模式增加 5-10 秒固定开销，非必要不建议开启

技术亮点

采用 BatchedInferencePipeline 与 VAD（语音活动检测）默认开启，蒸馏模型在 RTX 3070 上可达 21× 实时因子；支持 99+ 语言自动检测及领域术语预注入（initial-prompt）以提升专业词汇识别率。

audio transcription whisper speech-to-text ml cuda gpu subtitles diarization local-ml ctranlate2 offline

Faster Whisper 内容

暂无文件树

手动下载zip · 18.4 kB

contentapplication/octet-stream

请选择文件