Gemini STT

🎤 极速语音转文字,零依赖运行

基于 Google Gemini API 的音频转文字工具,默认使用 flash-lite 模型实现极速转录,零依赖纯 Python 实现。

收藏
10.2k
安装
3.1k
版本
1.0.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

gemini-stt 是一个轻量级命令行音频转录工具,通过调用 Google Gemini API 将语音文件转换为文本。默认采用 gemini-2.0-flash-lite 模型,在速度与成本间取得最佳平衡。

基本命令:

python ~/.claude/skills/gemini-stt/transcribe.py /path/to/audio.ogg

支持通过 --model 参数切换至更高质量的 Pro 系列模型。兼容 Telegram 语音消息(.ogg/.opus)、.mp3、.wav、.m4a 等主流格式,自动识别 MIME 类型。

显著优点

  • 零依赖设计:仅使用 Python 标准库(base64、urllib、json),无需安装额外包
  • 极速响应:Flash Lite 模型针对低延迟优化,适合实时场景
  • 模型灵活:7 档模型可选,从极速到高精度全覆盖
  • 格式友好:原生支持 Telegram 生态的 .ogg 语音消息
  • Clawdbot 集成:专为机器人工作流设计,支持 ~/.clawdbot/media/inbound/ 路径

潜在局限

  • API 依赖:需稳定网络连接至 Google 服务器,离线不可用
  • 成本累积:高频调用产生 Gemini API 费用,无本地兜底方案
  • 隐私考量:音频数据上传至 Google 云端处理,敏感内容需谨慎
  • 错误处理:仅返回 stderr 退出码 1,无结构化错误码或重试机制
  • 长音频限制:受 Gemini API 上下文窗口与速率限制约束

适合人群

  • Telegram 机器人开发者(Clawdbot 用户)
  • 需要快速原型语音功能的 Python 开发者
  • 追求极简部署、不愿维护复杂依赖的技术用户
  • 已持有 Google AI Studio / Vertex AI 凭据的 Gemini 生态用户

常规风险

  • 密钥泄露GEMINI_API_KEY 以环境变量存储,需确保 ~/.env 文件权限正确(建议 600)
  • 模型漂移:Google 频繁更新模型版本,默认模型未来可能被弃用
  • 输出不可控:大语言模型可能产生幻觉或格式不一致的转录结果
  • 计费突增:预览版模型(gemini-3-*-preview)定价可能变动,生产环境建议锁定稳定版本

Gemini STT 内容

暂无文件树

手动下载zip · 2.9 kB
contentapplication/octet-stream
请选择文件