核心用法
gemini-stt 是一个轻量级命令行音频转录工具,通过调用 Google Gemini API 将语音文件转换为文本。默认采用 gemini-2.0-flash-lite 模型,在速度与成本间取得最佳平衡。
基本命令:
python ~/.claude/skills/gemini-stt/transcribe.py /path/to/audio.ogg
支持通过 --model 参数切换至更高质量的 Pro 系列模型。兼容 Telegram 语音消息(.ogg/.opus)、.mp3、.wav、.m4a 等主流格式,自动识别 MIME 类型。
显著优点
- 零依赖设计:仅使用 Python 标准库(base64、urllib、json),无需安装额外包
- 极速响应:Flash Lite 模型针对低延迟优化,适合实时场景
- 模型灵活:7 档模型可选,从极速到高精度全覆盖
- 格式友好:原生支持 Telegram 生态的 .ogg 语音消息
- Clawdbot 集成:专为机器人工作流设计,支持
~/.clawdbot/media/inbound/路径
潜在局限
- API 依赖:需稳定网络连接至 Google 服务器,离线不可用
- 成本累积:高频调用产生 Gemini API 费用,无本地兜底方案
- 隐私考量:音频数据上传至 Google 云端处理,敏感内容需谨慎
- 错误处理:仅返回 stderr 退出码 1,无结构化错误码或重试机制
- 长音频限制:受 Gemini API 上下文窗口与速率限制约束
适合人群
- Telegram 机器人开发者(Clawdbot 用户)
- 需要快速原型语音功能的 Python 开发者
- 追求极简部署、不愿维护复杂依赖的技术用户
- 已持有 Google AI Studio / Vertex AI 凭据的 Gemini 生态用户
常规风险
- 密钥泄露:
GEMINI_API_KEY以环境变量存储,需确保~/.env文件权限正确(建议 600) - 模型漂移:Google 频繁更新模型版本,默认模型未来可能被弃用
- 输出不可控:大语言模型可能产生幻觉或格式不一致的转录结果
- 计费突增:预览版模型(gemini-3-*-preview)定价可能变动,生产环境建议锁定稳定版本