使用说明

核心用法

faster-whisper 是 OpenAI Whisper 的 CTranslate2 重实现版本，提供本地离线语音转文字服务。基础命令 ./scripts/transcribe audio.mp3 即可快速启动，支持多种输入源（本地文件、YouTube/URL、播客RSS）、批量处理及实时流式输出。

主要功能：

极速转录：GPU加速下可达~20倍实时速度（10分钟音频约30秒完成）
多格式字幕：SRT、VTT、ASS、LRC、TTML（广播级标准）、CSV表格输出
说话人分离：通过 --diarize 标识不同说话人，支持自定义真实姓名
精准时间戳：自动启用 wav2vec2 强制对齐，词级精度达~10ms
智能增强：噪声消除、音量归一化、幻觉过滤、填充词去除
章节检测：基于静音间隙自动识别内容分段
全文搜索：--search 快速定位关键词时间戳

模型选择策略：默认使用 distil-large-v3.5（~6.3倍速，WER 7.08%），追求极致精度选 large-v3，资源受限选 distil-medium.en 或 distil-small.en。

显著优点

完全离线：零API成本，隐私安全，无需网络连接（模型下载后）
速度领先：比原版 Whisper 快4-6倍，蒸馏模型再提速6倍
硬件友好：INT8量化降低显存占用，RTX 3070 推荐 int8_float16 混合模式
生产级稳定：CTranslate2 C++后端，支持批处理、断点续传、ETA预估
多语言支持：99+语言自动检测，支持翻译至英语及多语言混输

潜在缺点与局限

GPU依赖：CPU模式极慢（~0.3倍实时），无NVIDIA显卡体验骤降
模型体积：大模型需~2GB显存/内存，低配设备受限
macOS无加速：Apple Silicon仅CPU运行（CTranslate2无MPS支持）
说话人分离门槛：需额外安装 pyannote.audio、HuggingFace token 及模型授权
首次启动慢：需下载模型文件（缓存后恢复）
长音频内存压力：默认批处理，极端长文件可能OOM需调低 --batch-size

适合人群

内容创作者：快速生成视频字幕、播客文稿、会议记录
研究人员：批量处理访谈录音、多语言语料构建
企业用户：本地化部署满足数据合规要求
开发者：OpenAI兼容API模式（speaches）便于集成
多语言工作者：跨语言内容翻译、字幕本地化

常规风险

模型幻觉：音乐/静音区可能产生虚假文本，--filter-hallucinations 和 --temperature 0.0 可缓解
转录错误：专业术语识别不佳，需配合 --initial-prompt 或 --hotwords 优化
隐私泄露风险：虽本地运行，但 --diarize 需连接HuggingFace验证模型权限
输出覆盖：批量模式未用 --skip-existing 可能覆盖已有结果
版权敏感：URL下载功能可能涉及受保护内容，用户需自行确保合法使用

audio transcription whisper speech-to-text ml cuda gpu subtitles diarization podcast chapters search csv ttml batch local-ai privacy

Faster Whisper 内容

暂无文件树

手动下载zip · 54.0 kB

contentapplication/octet-stream

请选择文件