使用说明

核心用法

gemini-stt 是一款基于 Google Gemini 大模型的语音转文字工具，通过命令行直接调用，无需安装外部 Python 依赖库。用户只需提供音频文件路径，脚本即可自动完成转录。支持两种认证模式：优先检测 Vertex AI 的应用默认凭证（ADC），若未配置则回退至环境变量 GEMINI_API_KEY。

核心命令示例：

python transcribe.py /path/to/audio.ogg
python transcribe.py audio.mp3 --model gemini-2.5-pro
python transcribe.py voice.m4a --vertex --project my-project

显著优点

零依赖部署：仅依赖 Python 3.10+ 标准库，无需 pip 安装任何包，大幅降低环境冲突风险。
智能认证切换：自动优先使用 Vertex AI ADC，实现企业级身份管理；个人用户可快速通过 API Key 接入。
多模型灵活选择：从极速的 Flash Lite 到高质量的 Pro 系列，覆盖从实时转录到高精度识别的全场景。
格式兼容性广：原生支持 Telegram 语音消息（.ogg/.opus）及主流音频格式（.mp3、.wav、.m4a）。
低门槛集成：可无缝嵌入 Clawdbot 等自动化工作流，直接处理入站语音消息。

潜在缺点与局限性

云端依赖：必须联网调用 Google API，离线场景不可用；存在网络延迟和 API 服务可用性风险。
隐私考量：音频数据需上传至 Google 服务器处理，敏感内容存在数据主权和合规风险。
成本累积：高频调用下 Gemini API 按 token 计费，Vertex AI 按请求计费，大规模使用需关注账单。
认证复杂度：Vertex AI 需预装 gcloud CLI 并配置项目，对非 GCP 用户存在学习成本。
无本地加速：不支持 GPU 本地推理，完全依赖云端算力，无法自定义模型微调。

适合人群

开发者与自动化工程师：需快速为 Bot、语音助手添加转录能力的构建者。
内容创作者与播客制作人：批量处理访谈录音、会议记录的文字稿生成。
企业 IT 管理员：已入驻 GCP 生态，希望利用 Vertex AI 统一管理 AI 服务凭证的团队。
Clawdbot 用户：直接处理 Telegram 等平台的入站语音消息。

常规风险

| 风险类型 | 说明 | 缓解建议 |

|---------|------|---------|

| 认证泄露 | API Key 硬编码或误提交至版本控制 | 使用环境变量、密钥管理服务或 ADC |

| 成本失控 | 长音频或高频调用导致费用激增 | 设置预算告警、使用 Flash Lite 默认模型 |

| 数据泄露 | 敏感语音上传至第三方云端 | 评估数据分级，敏感场景选用本地化方案 |

| 服务中断 | Google API 限流或区域性故障 | 实现重试机制，准备备用转录服务 |

| 输出偏差 | AI 幻觉或特定口音识别错误 | 人工抽检关键内容，Pro 模型复核重要文件 |

安全解读

核心用法

gemini-stt 是一款轻量级语音转文字工具，通过调用 Google Gemini API 或 Vertex AI 实现音频转录。核心设计亮点在于零外部依赖——仅使用 Python 标准库完成 HTTP 请求、Base64 编码、子进程调用等全部功能，避免了供应链攻击风险。

支持双轨认证：优先自动检测 Vertex AI 的 Application Default Credentials（ADC），回退至环境变量 GEMINI_API_KEY。默认采用 gemini-2.0-flash-lite 模型追求极速转录，同时开放全系列 Gemini 模型选择（最高支持 gemini-3-pro-preview）。兼容 .ogg/.opus/.mp3/.wav/.m4a 等主流格式，自动识别 MIME 类型。

显著优点

1. 安全架构简洁：无 pip install 依赖，彻底消除第三方包漏洞风险；代码仅 384 行、3 个文件，审计友好
2. 企业级认证支持：原生支持 GCP ADC 工作流，免 API Key 管理，适合已有 Google Cloud 基础设施的用户
3. 模型灵活度：从极速轻量到高精度预览版，覆盖不同质量-成本-速度 trade-off 场景
4. Clawdbot 生态集成：针对 Telegram 语音消息（.ogg）优化，支持直接处理 ~/.clawdbot/media/inbound/ 路径

潜在缺点与局限性

隐私边界模糊：音频数据必须上传至 Google 服务器处理，无本地离线能力；文档缺少明确的数据保留政策说明
T3 来源风险：个人开发者维护（araa47），无企业 SLA 保障，长期更新存在不确定性
输入验证薄弱：未防御路径遍历攻击（../ 序列），存在意外读取敏感文件的理论可能
API 成本波动：Gemini 2.5/3 系列预览版定价策略不稳定，大文件可能产生意外费用

适合人群

已有 Google Cloud 账号、偏好 ADC 认证的技术用户
需要快速处理 Telegram/即时通讯语音消息的自动化工作流
重视依赖最小化、愿意审计代码的安全敏感用户
不适合：处理敏感机密音频、要求完全离线、或无 Google 服务访问环境的场景

常规风险

数据出境：音频内容传输至 Google 美国/全球数据中心，需评估合规要求
模型幻觉：Gemini 可能对低质量音频产生幻听文本，关键场景需人工复核
速率限制：免费层 API 存在 TPM/RPM 限制，批量处理需配置退避重试

speech-to-text transcription google-ai gemini-api vertex-ai audio-processing cli-tool clawdbot gcp voice-message

Gemini STT 内容

手动下载zip · 4.4 kB

SKILL.mdtext/markdown

请选择文件