使用说明

核心用法

openai-whisper-api 是一个轻量级的音频转录 Skill，通过调用 OpenAI 官方的 /v1/audio/transcriptions 端点实现语音转文字功能。用户只需执行 transcribe.sh 脚本并传入音频文件路径，即可快速获得转录结果。默认使用 whisper-1 模型，输出为纯文本格式，同时支持 JSON 输出以便后续处理。

该 Skill 提供了丰富的命令行选项：可通过 --model 指定模型版本，，--language 设置源语言，，--prompt 提供上下文提示以提升特定术语识别准确率，，--json 获取结构化输出。配置方式灵活，既支持环境变量 OPENAI_API_KEY，也支持通过 ~/.clawdbot/clawdbot.json 进行持久化配置。

显著优点

极简部署：仅依赖系统自带的 curl 工具，无需安装 Python 环境或下载庞大的 Whisper 本地模型，极大降低了使用门槛。

云端算力：利用 OpenAI 云端 GPU 资源，转录速度快且准确率高，无需担心本地硬件性能瓶颈。

官方背书：直接对接 OpenAI 官方 API，模型版本与能力持续更新，无需手动维护模型文件。

成本可控：按实际使用量付费，对于低频用户比自建本地服务更经济。

潜在缺点与局限性

数据隐私顾虑：音频文件必须上传至 OpenAI 服务器处理，涉及敏感内容的场景存在合规风险，无法满足完全离线处理需求。

网络依赖：强依赖外部网络连接和 OpenAI 服务可用性，无法在内网或断网环境使用。

功能边界：不支持实时流式转录，仅适用于录制完成的音频文件；不支持说话人分离等高级功能。

成本累积：高频使用场景下，API 调用费用可能超过本地部署方案。

适合的目标群体

需要快速搭建语音转文字能力的开发者与运维人员
内容创作者、播客制作者、记者等需要整理采访录音的媒体工作者
企业行政人员处理会议纪要的办公场景
对数据隐私要求不敏感、追求开箱即用体验的个人用户

使用风险

性能风险：大文件上传受网络带宽限制，超时可能导致转录失败；API 速率限制可能影响批量处理效率。

依赖风险：curl 版本过旧可能不支持某些 TLS 特性；OpenAI API 变更或定价调整可能影响服务连续性。

成本风险：未设置用量监控可能导致意外高额账单；长音频文件按分钟计费成本累积较快。

配置风险：API Key 若配置不当可能泄露，建议配合密钥管理工具使用。

安全解读

核心用法

OpenAI Whisper API Skill 通过简单的 Shell 脚本封装，调用 OpenAI 官方的 /v1/audio/transcriptions 端点实现语音转文字。用户只需提供音频文件路径即可快速获取转录结果，支持 m4a、ogg、mp3、wav 等常见音频格式。

基础用法：transcribe.sh /path/to/audio.m4a

进阶选项：

--model 指定模型版本（默认 whisper-1）
--language 设置源语言（如 en、zh）
--prompt 提供上下文提示优化转录准确性（如说话人姓名）
--json 输出带时间戳的 JSON 格式结果
--out 自定义输出路径

配置 API Key 支持两种方式：环境变量 OPENAI_API_KEY 或配置文件 ~/.clawdbot/clawdbot.json。

显著优点

1. 官方品质保障：直接调用 OpenAI Whisper 模型，识别准确率业界领先，支持 99 种语言
2. 零依赖轻量：纯 Shell + curl 实现，无 Python 环境或复杂依赖包，139 行代码清晰可控
3. 灵活输出格式：除纯文本外，JSON 模式可获取带时间戳的详细转录信息
4. 提示词优化：通过 --prompt 可注入专有名词、人名等上下文，显著提升转录质量
5. 配置灵活：支持环境变量和 JSON 配置文件双模式，适应不同安全场景

潜在缺点与局限性

1. 云端依赖：必须联网，音频数据需上传至 OpenAI 服务器，存在数据出境和隐私合规考量
2. API 成本：按音频时长计费，免费额度有限，高频使用成本可观
3. 无本地模型：不支持离线运行，无法处理敏感或涉密音频内容
4. 格式验证弱：当前仅检查文件存在性，不验证音频格式有效性，可能因格式错误导致 API 调用失败
5. 错误提示简略：直接透传 curl 错误，对 API Key 失效、额度耗尽等场景无友好提示

适合人群

播客/创作者：快速生成字幕或文字稿
会议记录员：批量处理录音文件
开发者：集成至自动化工作流
多语言用户：需要跨语言转录支持

不适合：对数据本地化有严格要求的场景（如涉密会议、医疗隐私音频）。

常规风险

| 风险类型 | 说明 | 缓解建议 |

|---------|------|---------|

| 数据外传 | 音频内容上传至 OpenAI 服务器 | 确认符合组织数据合规政策，避免处理敏感个人信息 |

| API Key 泄露 | 环境变量可能在进程列表中暴露 | 优先使用配置文件存储，定期轮换密钥 |

| 输出文件泄露 | 转录结果写入指定路径 | 检查目录权限，避免写入公共可访问位置 |

| 服务可用性 | 依赖 OpenAI API 稳定性 | 关键场景建议本地备份方案 |

content-media api productivity automation docs

openai-whisper-api 内容

scripts文件夹

手动下载zip · 1.7 kB

transcribe.shtext/x-shellscript

请选择文件