openrouter-transcribe

🎙️ 云端音频智能转录助手

🥥4总安装量 1评分人数 1
100% 的用户推荐

基于 OpenRouter API 的音频转录工具,支持 Gemini/GPT-4o-audio 等模型,通过命令行快速将音频转为文本,适合开发者与内容创作者高效处理语音内容。

S

安全性较高,可在多数场景中优先使用

  • 来自可信组织或认证账号,需要结合权限范围判断
  • ✅ 代码安全规范,无 eval/exec/system 等危险函数,使用 `set -euo pipefail` 严格模式
  • ✅ 临时文件安全处理,使用 `mktemp -d` 创建并配合 `trap` 机制确保自动清理
  • ✅ 依赖版本锁定,无动态代码加载或网络下载执行行为
  • ⚠️ 音频文件需上传至 OpenRouter 第三方云服务处理,存在数据出境风险
  • ⚠️ 需配置 OPENROUTER_API_KEY,会发送 X-Title 和 HTTP-Referer 头用于用量追踪

使用说明

核心用法

openrouter-transcribe 是一款命令行音频转录工具,通过调用 OpenRouter 的聊天补全 API 实现语音转文字。用户只需执行 {baseDir}/scripts/transcribe.sh /path/to/audio.m4a 即可快速获取转录结果。工具支持多种自定义选项,包括指定模型(默认 google/gemini-2.5-flash)、添加转录提示词(如说话人标签)、输出到文件以及设置调用者标识便于在 OpenRouter 后台追踪用量。

显著优点

技术实现简洁可靠:工具采用 ffmpeg 将音频转换为标准 WAV 格式(单声道、16kHz),经 base64 编码后通过 HTTPS 发送至 OpenRouter API,流程透明可控。脚本使用 set -euo pipefail 严格模式,配合完善的错误处理机制,确保执行稳定性。

兼容性与灵活性兼备:支持任意音频能力的 OpenRouter 模型,用户可根据需求切换 Gemini、GPT-4o-audio-preview 等不同厂商的模型。同时妥善处理大文件场景,通过临时文件而非命令行参数传递数据,避免 "argument list too long" 错误。

安全设计到位:临时目录使用 mktemp -d 创建并配合 trap 机制确保清理,无敏感信息硬编码,API Key 需用户主动配置,符合最小权限原则。

潜在缺点与局限性

网络依赖性强:完全依赖 OpenRouter 云端服务,离线环境无法使用,且受 API 可用性和响应速度制约。大文件或网络不稳定时可能出现超时或失败。

隐私与成本考量:音频文件需上传至第三方服务器处理,不适合处理机密或敏感内容。同时产生 OpenRouter API 调用费用,高频或大批量使用需关注成本。

功能边界有限:专注于转录单一任务,不支持实时流式转录、多语言自动检测、说话人分离等高级功能,复杂场景需配合其他工具。

适合的目标群体

  • 开发者与技术人员:需要集成音频转录到自动化工作流或脚本管道
  • 内容创作者与播客制作者:快速生成采访、会议、播客的文本稿
  • 研究人员与学生:处理访谈录音、课堂录音等学术资料
  • 小型团队:低成本、轻量化的语音内容处理方案

使用风险

  • 数据外泄风险:音频内容上传至 OpenRouter 服务器,需确保内容脱敏或已获得授权
  • API 依赖风险:服务可用性、定价策略变更可能影响长期使用
  • 成本不可控:按量计费模式下,大文件或高频调用可能产生意外费用
  • 格式兼容性:虽支持常见格式,但极端编码或损坏文件可能导致转录失败

openrouter-transcribe 内容

文件夹图标scripts文件夹
手动下载zip · 3.1 kB
transcribe.shtext/x-shellscript
请选择文件