Transcribe audio files via OpenRouter using audio-capable models

🎙️ 多模型音频转录,一键搞定

利用 OpenRouter API 调用 Gemini、GPT-4o-audio 等模型实现音频转文字,支持自定义模型、提示词和输出格式

收藏
8.8k
安装
3.5k
版本
1.0.0
CLS 安全性认证2026-05-18
点击查看完整报告 >

使用说明

核心用法

openrouter-transcribe 是一个通过 OpenRouter API 实现音频转录的 CLI 工具。用户只需运行脚本并传入音频文件路径,即可调用 Gemini 2.5 Flash 等音频模型进行转录。脚本会自动将音频转换为 WAV 格式(单声道、16kHz)、Base64 编码后发送至 OpenRouter 的 chat completions 接口。

显著优点

  • 模型灵活性:支持多种音频模型(Gemini 系列、GPT-4o-audio-preview 等),可随时切换
  • 低成本接入:OpenRouter 作为模型聚合平台,提供统一 API 和竞争定价
  • 高度可定制:支持自定义提示词(如说话人标注)、输出文件路径、调用者标识
  • 健壮性设计:针对大文件优化,避免 shell 参数长度限制;兼容 macOS 临时文件处理

潜在缺点与局限性

  • 依赖外部服务:完全依赖 OpenRouter 可用性和模型支持状态
  • 音频预处理限制:强制转换为单声道 16kHz,可能损失立体声信息或高保真细节
  • 文件大小约束:虽未明确限制,但大文件 Base64 编码后可能触发 API 长度限制
  • 网络依赖:无离线能力,需稳定网络连接

适合人群

  • 开发者需快速集成音频转录功能
  • 研究人员对比不同音频模型效果
  • 小型项目预算敏感、不愿维护多供应商 API

常规风险

  • API 密钥泄露:需妥善保管 OPENROUTER_API_KEY
  • 数据隐私:音频内容上传至第三方平台,敏感内容需谨慎
  • 成本控制:按 token 计费,长音频可能产生意外费用

安全解读

核心用法

openrouter-transcribe 是一款基于 bash 的音频转录工具,通过 OpenRouter 统一接口调用 Gemini 2.5 Flash、GPT-4o-audio 等多模态大模型完成语音识别。核心流程为:ffmpeg 将音频转换为单声道 16kHz WAV → base64 编码 → 通过 HTTPS POST 发送至 OpenRouter API → 解析返回文本。

使用示例

transcribe.sh audio.m4a                    # 默认使用 Gemini 2.5 Flash
transcribe.sh audio.ogg --model openai/gpt-4o-audio-preview  # 切换模型
transcribe.sh audio.m4a --prompt "添加说话人标签"            # 自定义指令
transcribe.sh audio.m4a --out transcript.txt                  # 保存到文件

API Key 通过环境变量 OPENROUTER_API_KEY 或配置文件 ~/.clawdbot/clawdbot.json 注入,无硬编码风险。

显著优点

1. 模型选择灵活:不绑定单一厂商,可在 Gemini、OpenAI、Anthropic 等音频模型间自由切换
2. 零依赖安装:纯 bash 实现,仅依赖系统预装工具(curl/ffmpeg/jq/base64),无 Python/Node 生态包袱

3. 工程细节完善:处理 macOS mktemp 后缀问题、规避 shell 参数长度限制(大文件 base64 写入临时文件)、EXIT trap 确保临时文件清理

4. 身份可追踪:通过 X-TitleHTTP-Referer 头在 OpenRouter 仪表板识别调用来源

5. 安全评级优秀:安全认证评分 80/100,获 S 级评级,无高危风险点

潜在缺点与局限

1. 数据必须出域:音频文件需上传至 OpenRouter 服务器处理,不适合绝密/隐私敏感场景
2. 成本不可控:按 token 计费,长音频可能产生意外费用,无内置文件大小限制

3. 网络依赖严格:无离线能力,需稳定国际网络连接,建议添加 --max-time 超时控制(当前未实现)

4. 模型能力差异:不同模型对中文、多说话人、时间戳的支持参差不齐,需自行测试

5. 无实时转录:仅支持文件批量处理,不支持流式/实时语音识别

适合人群

  • 开发者/技术用户:熟悉命令行操作,能自主管理 API Key 和费用
  • 多模型对比需求:希望同一音频测试不同厂商模型效果
  • 轻量集成场景:不愿引入重型 SDK,追求最小化部署
  • 不适合:医疗/法律等强合规场景、离线环境、完全不懂命令行的终端用户

常规风险

| 风险类型 | 等级 | 说明 |
|---------|------|------|
| 数据外传 | 中 | 音频上传至 OpenRouter(美国),受 OpenRouter 隐私政策约束 |
| API Key 泄露 | 低 | 仅从环境变量读取,无硬编码,但需确保 `.bashrc`/配置文件权限 |
| 依赖缺失 | 低 | ffmpeg/jq 未安装时脚本失败,需手动安装 |
| 费用超支 | 中 | 大文件无大小限制,建议自行前置检查(如 100MB) |
| 供应商锁定 | 低 | 依赖 OpenRouter 平台稳定性,但模型可迁移至官方 API |

Transcribe audio files via OpenRouter using audio-capable models 内容

scripts文件夹
手动下载zip · 3.0 kB
transcribe.shtext/x-shellscript
请选择文件