skills/theplasmak/Faster Whisper

Faster Whisper

🗣️ 极速本地语音转录，20倍实时精准出稿

ai-ml榜 #4

开源本地语音转文字工具，比 OpenAI Whisper 快4-6倍，支持GPU加速、说话人分离、多格式字幕导出与批量处理

收藏

15.7k

安装

6.4k

版本

1.5.1

CLS 安全扫描中

预计需要 3 分钟...

使用说明

核心功能

faster-whisper 是 OpenAI Whisper 的高性能本地化实现，基于 CTranslate2 引擎重新构建，在保持相同识别准确率的前提下实现 4-6倍速度提升。配合 GPU 加速（CUDA），可实现约 20倍实时转录（10分钟音频约30秒完成）。

主要能力

基础转录：支持 99+ 种语言的自动识别与转录，默认使用 distil-large-v3.5 模型（6倍速蒸馏模型，准确率损失<1%）。

字幕生成：原生支持 SRT、WebVTT、ASS（Aegisub）、LRC（歌词）、TTML（广播级标准）等格式，可生成词级时间戳（~10ms精度）。

说话人分离：集成 pyannote.audio，自动标注 "谁说了什么"，支持自定义说话人姓名映射。

智能处理：URL/YouTube 自动下载、播客 RSS 批量抓取、章节自动检测、音频降噪与归一化、填充词清理（um/uh等）。

批量与搜索：通配符批量处理、断点续传、ETA预估、转录内容关键词搜索与定位。

显著优点

零API成本：完全本地运行，无订阅费用
隐私安全：音频不上传云端，适合敏感内容
生产级性能：C++后端稳定高效，支持量化降显存
灵活输出：多格式并行输出、CSV表格、HTML置信度着色、JSON元数据
精准对齐：自动 wav2vec2 强制对齐，词边界精度达10ms

潜在局限

硬件依赖：CPU转录极慢（~0.3倍实时），强烈依赖NVIDIA GPU
macOS无加速：Apple Silicon仅CPU运行（CTranslate2不支持Metal）
初始配置：说话人分离需 HuggingFace 认证与模型许可
显存占用：大模型+分离需 ~3GB VRAM，低显存需降质或量化
长音频流式：--stream 模式下禁用分离与词对齐

适合人群

内容创作者（播客、视频字幕制作）
企业与研究机构（会议记录、访谈整理）
隐私敏感场景（医疗、法律、金融转录）
多语言内容处理者（自动语言检测、批量翻译转录）

常规风险

模型幻觉：音乐/静音处可能生成虚假文本，需 --filter-hallucinations 或调低 temperature
VAD误切：语音活动检测可能切分不当，需调参 --vad-threshold
蒸馏模型重复：需自动禁用 condition_on_previous_text（脚本已处理）
依赖维护：yt-dlp、ffmpeg、pyannote 等可选组件需单独管理

audio transcription whisper speech-to-text cuda gpu subtitles diarization local-ai open-source batch-processing podcast youtube privacy

Faster Whisper 内容

暂无文件树

手动下载zip · 54.2 kB

contentapplication/octet-stream

请选择文件