使用说明

核心用法

openai-whisper 是一个纯配置型 Skill，通过封装 OpenAI Whisper CLI 实现本地语音识别功能。用户只需调用 whisper 命令并指定音频文件路径即可完成转录，支持多种输出格式（txt、srt 等）和任务类型（transcribe/translate）。典型用法包括：：whisper /path/audio.mp3 --model medium --output_format txt 进行本地转录，或使用 --task translate 将非英语音频翻译为英文。模型默认使用 turbo 版本，首次运行时会自动下载到 ~/.cache/whisper 目录。

显著优点

隐私优先设计：所有音频处理完全在本地完成，无需上传至任何云端服务，特别适合处理敏感语音内容。零 API 成本：无需申请或配置 API 密钥，彻底消除调用费用和速率限制困扰。开源可信：依托 OpenAI 官方开源项目（GitHub 80k+ stars），代码完全透明可审计。多语言支持：Whisper 模型覆盖 99 种语言，支持自动语言检测和跨语言翻译。灵活可控：用户可根据需求在速度与精度间自由权衡，从 tiny 到 large-v3 多档模型可选。

潜在缺点与局限性

硬件资源消耗：较大模型（如 large-v3）需要显著 GPU/CPU 内存和计算资源，低配设备可能运行缓慢。首次启动延迟：模型文件体积庞大（数百 MB 至数 GB），首次使用需等待下载完成。无实时流式能力：CLI 版本仅支持文件级批处理，无法直接用于实时语音输入场景。转录精度边界：对于重度口音、专业术语或嘈杂环境，识别准确率仍有提升空间。依赖管理成本：需通过 Homebrew 维护 whisper 二进制文件的版本更新。

适合的目标群体

隐私敏感型用户：记者、律师、医疗工作者等需处理机密录音的专业人士
内容创作者：播客主、视频博主需要快速生成字幕或文稿
研究人员：需批量处理访谈录音、会议记录的学术工作者
企业内网环境：无法连接外部 API 的离线或高安全隔离场景
多语言工作者：需处理小语种音频的翻译或本地化团队

使用风险

性能风险：大型模型转录长音频可能耗时数分钟至数小时，建议根据时效要求选择合适模型档位。存储风险：多模型缓存可能占用数 GB 磁盘空间，需定期清理 ~/.cache/whisper。依赖风险：Whisper CLI 版本更新可能引入不兼容变更，建议锁定稳定版本。供应链风险：虽 Homebrew 和 OpenAI 官方源可信度极高，但仍建议验证安装包签名。

安全解读

核心用法

OpenAI Whisper 是一款开源自动语音识别（ASR）系统，通过本地 CLI 工具实现音频转文字功能。用户安装后可直接调用 whisper 命令处理音频文件，支持 MP3、M4A 等常见格式，输出 TXT、SRT、JSON 等多种格式。核心命令结构为 whisper [音频路径] --model [模型大小] --output_format [格式]，默认使用 turbo 模型平衡速度与精度。

典型场景：

会议录音转文字稿：whisper meeting.mp3 --model medium --output_format txt
多语言视频生成字幕：whisper video.m4a --task translate --output_format srt
播客内容快速索引：结合 --language 参数指定源语言提升准确度

模型按需下载至 ~/.cache/whisper，首次使用后本地缓存，离线可用。提供 tiny/base/small/medium/large/turbo 六级模型，越大的模型转录精度越高但资源消耗越大。

显著优点

1. 完全本地化隐私保障：音频处理全程在设备端完成，无需上传云端，彻底杜绝数据泄露风险，尤其适合敏感商务会议、医疗记录、法律取证等场景。

2. 顶级技术权威性：基于 OpenAI 2022 年开源的 Whisper 模型，采用 68 万小时多语言多任务监督数据训练，英语识别接近人类水平，多语言支持覆盖 99 种语言。

3. 零成本无门槛：开源 MIT 许可证，无需 API 密钥或订阅费用，个人与企业均可免费商用。

4. 多任务灵活性：内置 transcribe（转录）与 translate（翻译）双模式，可直接将非英语音频翻译为英文字幕，省去额外翻译步骤。

潜在局限

硬件资源消耗：Large 模型需要约 10GB VRAM，纯 CPU 运行大模型时转录速度较慢（实时率 1:1 至 1:10 不等）
中文标点优化不足：相比专业中文 ASR 服务（如讯飞、阿里云），中文语句断句和标点预测偶尔不够精准
离线依赖模型缓存：首次使用需联网下载模型文件（数百 MB 至数 GB）
无实时流式识别：仅支持录制完成后批量处理，不支持麦克风实时转写（需配合其他工具如 whisper-live）

适合人群

隐私敏感型用户：记者、律师、医生、研究人员处理涉密音频
内容创作者：YouTuber、播客主快速生成多语言字幕
跨国企业团队：低成本统一处理多语言会议记录
开源技术爱好者：希望完全掌控数据处理流程的开发者
离线环境工作者：无稳定网络连接的现场录音场景

常规风险与注意事项

| 风险类型 | 说明 | 缓解措施 |

|---------|------|---------|

| 本地二进制安全 | Skill 本身为纯文档，但实际依赖本地 `whisper` 可执行文件 | 通过 Homebrew (`brew install openai-whisper`) 或官方 PyPI 渠道安装，避免不明来源二进制 |

| 模型文件完整性 | 首次下载的模型缓存可能被篡改 | 校验 SHA256 或从 Hugging Face/OpenAI 官方镜像拉取 |

| 转录准确度期望 | 嘈杂环境、口音过重、专业术语场景错误率上升 | 选用更大模型，或后期人工校对关键内容 |

| 存储空间占用 | 多模型缓存可能累积数十 GB | 定期清理 `~/.cache/whisper` 中不再使用的旧版本模型 |

安全认证：经 CLS-Certify v2.1.0 六维扫描，获 S+ 评级（100/100 分），零威胁发现，符合 GDPR 合规要求。

content-media productivity docs automation education-research

openai-whisper 内容

手动下载zip · 848 B

SKILL.mdtext/markdown

请选择文件