使用说明

核心用法

openai-whisper 是一款基于 OpenAI Whisper 模型的本地语音转文字 CLI 工具封装 Skill。用户通过简单的命令行指令即可完成音频转录：

基础转录：whisper /path/audio.mp3 --model medium --output_format txt --output_dir .
翻译模式：whisper /path/audio.m4a --task translate --output_format srt

首次运行会自动下载模型到 ~/.cache/whisper，默认使用 turbo 模型以平衡速度与精度。支持多种输出格式（txt/srt/json等）和大小模型切换（tiny/base/small/medium/large/turbo）。

显著优点

1. 完全本地运行：无需联网、无需 API Key，保护隐私数据不外流
2. 多语言支持：Whisper 原生支持 99 种语言的语音识别与翻译
3. 高精度转录：large-v3 模型在多数基准测试中达到人类级准确率
4. 零成本：开源免费，无按量计费或订阅费用
5. 格式灵活：支持 mp3/wav/m4a/flac 等主流音频格式，输出字幕/纯文本/时间戳

潜在局限

硬件要求：大模型（large）需 10GB+ 显存或充足内存，低配设备仅能运行 tiny/base
初次下载：模型文件 1-3GB，首次使用需等待下载
实时性：非流式架构，需等待完整音频处理，不适合实时会议字幕
依赖管理：需用户自行维护本地 whisper 安装版本

适合人群

隐私敏感用户（医疗/法律/金融转录场景）
播客/视频创作者需要批量生成字幕
研究者处理采访录音或会议记录
无稳定网络环境或 API 预算限制的用户

常规风险

转录质量受音频清晰度、背景噪音、口音影响
敏感内容转录后需人工复核，模型可能产生幻觉式错误
大型模型运行时风扇噪音与电池消耗显著

speech-to-text audio-transcription openai local-ai cli-tool privacy-first multilingual subtitle-generation offline

Openai Whisper 内容

手动下载zip · 761 B

SKILL.mdtext/markdown

请选择文件