Faster Whisper

🗣️ 极速本地语音转文字,AI字幕一键生成

audio榜 #2

本地高性能语音转文字,4-6倍速于OpenAI Whisper,支持GPU加速、多语言、说话人分离及多种字幕格式输出。

收藏
31k
安装
6.4k
版本
1.5.0
CLS 安全性认证2026-05-18
点击查看完整报告 >

使用说明

核心用法

faster-whisper 是 OpenAI Whisper 的 CTranslate2 重实现版本,提供本地离线语音转文字服务。基础命令 ./scripts/transcribe audio.mp3 即可快速启动,支持多种输入源(本地文件、YouTube/URL、播客RSS)、批量处理及实时流式输出。

主要功能:

  • 极速转录:GPU加速下可达~20倍实时速度(10分钟音频约30秒完成)
  • 多格式字幕:SRT、VTT、ASS、LRC、TTML(广播级标准)、CSV表格输出
  • 说话人分离:通过 --diarize 标识不同说话人,支持自定义真实姓名
  • 精准时间戳:自动启用 wav2vec2 强制对齐,词级精度达~10ms
  • 智能增强:噪声消除、音量归一化、幻觉过滤、填充词去除
  • 章节检测:基于静音间隙自动识别内容分段
  • 全文搜索--search 快速定位关键词时间戳

模型选择策略:默认使用 distil-large-v3.5(~6.3倍速,WER 7.08%),追求极致精度选 large-v3,资源受限选 distil-medium.endistil-small.en

显著优点

  • 完全离线:零API成本,隐私安全,无需网络连接(模型下载后)
  • 速度领先:比原版 Whisper 快4-6倍,蒸馏模型再提速6倍
  • 硬件友好:INT8量化降低显存占用,RTX 3070 推荐 int8_float16 混合模式
  • 生产级稳定:CTranslate2 C++后端,支持批处理、断点续传、ETA预估
  • 多语言支持:99+语言自动检测,支持翻译至英语及多语言混输

潜在缺点与局限

  • GPU依赖:CPU模式极慢(~0.3倍实时),无NVIDIA显卡体验骤降
  • 模型体积:大模型需~2GB显存/内存,低配设备受限
  • macOS无加速:Apple Silicon仅CPU运行(CTranslate2无MPS支持)
  • 说话人分离门槛:需额外安装 pyannote.audio、HuggingFace token 及模型授权
  • 首次启动慢:需下载模型文件(缓存后恢复)
  • 长音频内存压力:默认批处理,极端长文件可能OOM需调低 --batch-size

适合人群

  • 内容创作者:快速生成视频字幕、播客文稿、会议记录
  • 研究人员:批量处理访谈录音、多语言语料构建
  • 企业用户:本地化部署满足数据合规要求
  • 开发者:OpenAI兼容API模式(speaches)便于集成
  • 多语言工作者:跨语言内容翻译、字幕本地化

常规风险

  • 模型幻觉:音乐/静音区可能产生虚假文本,--filter-hallucinations--temperature 0.0 可缓解
  • 转录错误:专业术语识别不佳,需配合 --initial-prompt--hotwords 优化
  • 隐私泄露风险:虽本地运行,但 --diarize 需连接HuggingFace验证模型权限
  • 输出覆盖:批量模式未用 --skip-existing 可能覆盖已有结果
  • 版权敏感:URL下载功能可能涉及受保护内容,用户需自行确保合法使用

安全解读

核心用法

faster-whisper 是 OpenAI Whisper 的高性能本地重实现,通过 CTranslate2 优化实现 4-6 倍速度提升(GPU 可达 ~20 倍实时),同时保持相同的识别准确率。

主要功能

  • 基础转录./scripts/transcribe audio.mp3
  • 多格式字幕:SRT、VTT、ASS、LRC、TTML(广播级标准)
  • 说话人分离--diarize 识别不同说话人(需 pyannote.audio)
  • URL/YouTube 输入:自动下载并转录
  • 批量处理:通配符、目录输入,自动显示 ETA
  • 高级功能:章节检测、转录搜索、逐词时间戳、多语言映射

模型选择策略

| 场景 | 推荐模型 | 特点 |
|------|---------|------|
| 默认平衡 | `distil-large-v3.5` | ~6.3x 速度,7.08% WER |
| 最高精度 | `large-v3` | 完整模型,最准确 |
| 纯英语极速 | `distil-medium.en` | ~6.8x 速度 |
| 资源受限 | `distil-small.en` | 移动端/边缘设备 |

性能基准(RTX 3070)

  • 21 分钟音频 → ~24 秒(批量推理)
  • 对比原版 Whisper:~69 秒

---

显著优点

1. 速度压倒性优势:CTranslate2 量化 + 批量推理,GPU 场景下 20 倍实时
2. 功能全面:涵盖 whisperx 全部功能(分离、词级时间戳),无需额外工具

3. 离线本地运行:无 API 成本,模型下载后完全离线

4. 企业级输出:TTML 广播标准、CSV 表格、多格式并行导出

5. 智能默认:自动 VAD、自动禁用蒸馏模型重复循环、自动 ETA

---

潜在缺点与局限

| 限制 | 说明 |
|------|------|
| **macOS 无 GPU 加速** | Apple Silicon 仅 CPU,~3-5x 实时 |
| **说话人分离配置复杂** | 需 HuggingFace token + 模型协议同意 |
| **首次模型下载** | large-v3 模型 ~1.5GB,需等待下载 |
| **内存需求** | 大模型 + 分离需 ~3-4GB VRAM |
| **长音频流式限制** | `--stream` 与分离/对齐互斥 |
| **批量章节文件覆盖** | `--chapters-file` 在批量模式下只保留最后文件结果 |

---

适合人群

  • 播客/媒体工作者:RSS 批量转录、章节检测、多格式字幕
  • 会议记录员:说话人分离、CSV 导出、搜索定位
  • 视频创作者:烧录字幕、ASS 高级样式、逐词时间戳
  • 研究人员:本地离线处理、自定义模型、JSON 元数据导出
  • 多语言内容处理:99+ 语言自动检测、批量多语言映射

---

常规风险

  • 模型幻觉:音乐/静音处可能产生虚假文本 → 用 --temperature 0.0 缓解
  • VRAM 不足:大模型 + 分离易 OOM → 用 --compute-type int8_float16 或降模型
  • URL 下载依赖:yt-dlp 需保持更新以兼容 YouTube 变动
  • 隐私合规:音频本地处理,但 HuggingFace token 需注意保管

Faster Whisper 内容

scripts文件夹
手动下载zip · 54.0 kB
transcribe.pytext/plain
请选择文件