核心用法
openai-whisper 是一款基于 OpenAI Whisper 模型的本地语音转文字 CLI 工具封装 Skill。用户通过简单的命令行指令即可完成音频转录:
- 基础转录:
whisper /path/audio.mp3 --model medium --output_format txt --output_dir . - 翻译模式:
whisper /path/audio.m4a --task translate --output_format srt
首次运行会自动下载模型到 ~/.cache/whisper,默认使用 turbo 模型以平衡速度与精度。支持多种输出格式(txt/srt/json等)和大小模型切换(tiny/base/small/medium/large/turbo)。
显著优点
1. 完全本地运行:无需联网、无需 API Key,保护隐私数据不外流
2. 多语言支持:Whisper 原生支持 99 种语言的语音识别与翻译
3. 高精度转录:large-v3 模型在多数基准测试中达到人类级准确率
4. 零成本:开源免费,无按量计费或订阅费用
5. 格式灵活:支持 mp3/wav/m4a/flac 等主流音频格式,输出字幕/纯文本/时间戳
潜在局限
- 硬件要求:大模型(large)需 10GB+ 显存或充足内存,低配设备仅能运行 tiny/base
- 初次下载:模型文件 1-3GB,首次使用需等待下载
- 实时性:非流式架构,需等待完整音频处理,不适合实时会议字幕
- 依赖管理:需用户自行维护本地 whisper 安装版本
适合人群
- 隐私敏感用户(医疗/法律/金融转录场景)
- 播客/视频创作者需要批量生成字幕
- 研究者处理采访录音或会议记录
- 无稳定网络环境或 API 预算限制的用户
常规风险
- 转录质量受音频清晰度、背景噪音、口音影响
- 敏感内容转录后需人工复核,模型可能产生幻觉式错误
- 大型模型运行时风扇噪音与电池消耗显著