使用说明

核心用法

faster-whisper 提供基于 CTranslate2 的高性能语音转文字能力，核心命令为 ./scripts/transcribe <输入>。输入支持本地音频/视频文件、目录批量处理、glob 模式，以及 YouTube/直链 URL（自动下载）。输出格式涵盖纯文本、JSON（含完整元数据）、SRT 与 VTT 字幕。

关键功能通过 CLI 标志控制：--format srt/vtt 生成字幕，--word-timestamps 启用词级时间戳（自动触发 wav2vec2 对齐，精度约 10ms），--diarize 启用说话人分离（依赖 pyannote.audio）。--initial-prompt 可注入领域术语提升专业词汇识别率。

模型选择默认 distil-large-v3.5，在速度与准确率间取得最佳平衡。Distilled 系列模型相比标准 Whisper 实现约 6 倍加速，WER 差异仅约 1%。资源受限场景可选用 distil-medium.en（英语专用）或 distil-small.en（边缘设备）。最大精度需求使用 large-v3。

显著优点

性能领先：CTranslate2 后端 + GPU 加速实现约 20 倍实时转录（10 分钟音频 30 秒完成），批量推理（BatchedInferencePipeline）再提升约 3 倍吞吐量。

功能完整：原生支持 SRT/VTT 字幕导出、精确词级对齐、说话人分离、99+ 语言自动检测、YouTube/URL 直转、批量处理与断点续传（--skip-existing）。

成本与隐私：完全本地运行，无 API 费用，无需联网（首次模型下载后），适合敏感会议与隐私场景。

模型优化：Distilled 模型以 1% 准确率损失换取 6 倍速度提升，INT8 量化进一步降低内存占用，支持消费级 GPU 部署。

潜在缺点与局限性

硬件依赖：无 GPU 时速度骤降（CPU 约 0.3-1 倍实时），macOS 仅 CPU 支持（Apple Silicon 约 3-5 倍实时，Intel 仅 1-2 倍）。

功能开销：说话人分离增加 20-30 秒处理时间，词级时间戳增加 5-10 秒 wav2vec2 对齐开销，不适合超短音频或实时流式场景。

配置门槛：说话人分离需 HuggingFace Token 与模型协议接受，GPU 环境需正确安装 CUDA 版 PyTorch，否则易误用 CPU 模式。

语言限制：.en 模型仅支持英语；自动语言检测虽支持 99+ 语言，但指定语言可跳过检测节省约 10-20% 时间。

适合人群

内容创作者（播客、视频字幕制作）
企业与研究者（会议记录、访谈转录、学术讲座整理）
隐私敏感用户（医疗、法律、政府场景，拒绝云端 API）
多语言内容处理者（跨国会议、多语言视频归档）
批量处理需求者（播客网络、媒体档案数字化）

不适合实时直播转录、纯云端无本地算力环境、以及追求零配置开箱即用的非技术用户。

常规风险

隐私合规风险：说话人分离依赖 pyannote.audio，模型从 HuggingFace 下载，需接受用户协议并配置 Token，企业环境需审查第三方模型许可条款。

数据残留：YouTube/URL 下载依赖 yt-dlp，临时文件需确认清理；HuggingFace 模型缓存于 ~/.cache/huggingface/，共享设备需注意权限隔离。

输出质量波动：低质量音频、强背景噪音、重叠语音场景下，自动过滤（--min-confidence）可能误删有效内容或保留错误转录，建议关键场景人工复核。

资源占用：large-v3 模型约需 4GB RAM/2GB VRAM，说话人分离再增 1-2GB VRAM，低配 GPU 易触发 OOM，需主动降低 --batch-size 或换用 INT8 计算类型。

audio transcription whisper speech-to-text ml cuda gpu subtitles diarization local-ai offline batch-processing

Faster Whisper 内容

暂无文件树

手动下载zip · 18.4 kB

contentapplication/octet-stream

请选择文件