skills/araa47/Gemini STT

Gemini STT

🎤 极速语音转文字，零依赖运行

基于 Google Gemini API 的音频转文字工具，默认使用 flash-lite 模型实现极速转录，零依赖纯 Python 实现。

收藏

10.2k

安装

3.1k

版本

1.0.0

CLS 安全扫描中

预计需要 3 分钟...

使用说明

核心用法

gemini-stt 是一个轻量级命令行音频转录工具，通过调用 Google Gemini API 将语音文件转换为文本。默认采用 gemini-2.0-flash-lite 模型，在速度与成本间取得最佳平衡。

基本命令：

python ~/.claude/skills/gemini-stt/transcribe.py /path/to/audio.ogg

支持通过 --model 参数切换至更高质量的 Pro 系列模型。兼容 Telegram 语音消息（.ogg/.opus）、.mp3、.wav、.m4a 等主流格式，自动识别 MIME 类型。

显著优点

零依赖设计：仅使用 Python 标准库（base64、urllib、json），无需安装额外包
极速响应：Flash Lite 模型针对低延迟优化，适合实时场景
模型灵活：7 档模型可选，从极速到高精度全覆盖
格式友好：原生支持 Telegram 生态的 .ogg 语音消息
Clawdbot 集成：专为机器人工作流设计，支持 ~/.clawdbot/media/inbound/ 路径

潜在局限

API 依赖：需稳定网络连接至 Google 服务器，离线不可用
成本累积：高频调用产生 Gemini API 费用，无本地兜底方案
隐私考量：音频数据上传至 Google 云端处理，敏感内容需谨慎
错误处理：仅返回 stderr 退出码 1，无结构化错误码或重试机制
长音频限制：受 Gemini API 上下文窗口与速率限制约束

适合人群

Telegram 机器人开发者（Clawdbot 用户）
需要快速原型语音功能的 Python 开发者
追求极简部署、不愿维护复杂依赖的技术用户
已持有 Google AI Studio / Vertex AI 凭据的 Gemini 生态用户

常规风险

密钥泄露：GEMINI_API_KEY 以环境变量存储，需确保 ~/.env 文件权限正确（建议 600）
模型漂移：Google 频繁更新模型版本，默认模型未来可能被弃用
输出不可控：大语言模型可能产生幻觉或格式不一致的转录结果
计费突增：预览版模型（gemini-3-*-preview）定价可能变动，生产环境建议锁定稳定版本

speech-to-text gemini-api audio-processing cli-tool telegram voice google-ai transcription

Gemini STT 内容

暂无文件树

手动下载zip · 2.9 kB

contentapplication/octet-stream

请选择文件