Voice Transcribe

🎙️ AI 语音转录,一键速记

基于 OpenAI GPT-4o-mini 的语音转录工具,支持词汇自定义与文本纠错,适合快速处理语音备忘录。

收藏
27.5k
安装
5.7k
版本
1.0.1
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

voice-transcribe 是一款调用 OpenAI GPT-4o-mini-transcribe 模型的语音转录 Skill。用户通过 uv run 命令直接执行,将本地音频文件转为文本。支持 MP3、WAV、OGG 等主流格式,并通过 SHA256 缓存避免重复调用 API。

显著优点:

  • 极简工作流:专为 WhatsApp 语音备忘录场景设计,一行命令完成转录
  • 可定制词汇:通过 vocab.txt 提供人名/术语提示,replacements.txt 实现确定性文本替换,有效解决专业词汇误识别
  • 零依赖部署:仅依赖 uv 运行时,无额外 Python 包管理负担
  • 管道友好:支持标准输出管道,可无缝对接 pbcopy 等工具

潜在缺点与局限性:

  • 语言锁定:仅支持英语,无自动语言检测
  • 外部 API 依赖:必须配置 OpenAI API Key,产生调用成本与网络依赖
  • 纯文档型实现:实际可执行文件 transcribe 未在 Skill 中提供,需用户自行准备或推断
  • 隐私考量:音频数据需上传至 OpenAI 服务器处理

适合人群

  • 高频接收英语语音消息的商务/个人用户
  • 需要快速归档会议纪要、访谈录音的知识工作者
  • 已持有 OpenAI API Key 的技术用户

常规风险
API 密钥以 .env 文件形式本地存储,存在误提交版本控制的风险;建议配合 direnv 或系统密钥管理工具使用。转录内容准确性受音频质量与模型能力限制,关键场景需人工复核。

安全解读

综合评估:voice-transcribe 语音转录技能

核心用法

voice-transcribe 是一个基于 OpenAI gpt-4o-mini-transcribe 模型的命令行语音转录工具,旨在快速处理语音备忘录(如来自 WhatsApp 的语音消息),将其转换为可编辑的文本。用户通过 uv run 命令直接调用,支持 mp3、wav 等主流音频格式。技能内置了自定义词汇提示(vocab.txt)和文本替换(replacements.txt)功能,允许用户通过简单的文本文件修正专有名词、人名或行业术语的识别错误。音频文件通过 SHA256 哈希进行本地缓存,避免重复处理。

显著优点

1. 操作极简:只需一条命令即可完成转录,完美契合语音备忘录的快速处理需求。
2. 模型优秀:直接采用 OpenAI 先进的 gpt-4o-mini-transcribe 模型,保证了较高的转录准确率。

3. 用户可控的修正能力:通过 vocab.txtreplacements.txt 两个纯文本文件,用户可以高效、持久地纠正常见的转录错误,特别适合包含特定人名、品牌名或技术术语的场景。

4. 本地智能缓存:基于音频文件的 SHA256 哈希值进行缓存,避免了对相同内容的重复 API 调用,节省了成本和时间。

5. 架构简单透明:技能包仅由少量纯文本文件构成,依赖清晰,无复杂的外部依赖,易于理解和维护。

潜在缺点与局限性

1. 核心代码缺失是最大硬伤:技能包内不含 transcribe 核心可执行脚本,导致无法进行完整的代码审查与功能验证,形成供应链盲区。
2. 平台与路径硬编码SKILL.md 中硬编码了特定 macOS 用户(darin)的个人文件路径,并使用了 macOS 专属工具(pbcopy),严重限制了技能的跨平台和跨用户移植能力。

3. 隐私实践缺失:作为一款音频处理工具,文档中未明确告知用户音频数据将被发送至第三方服务(OpenAI API),也未说明数据保留及删除策略,缺乏隐私保护声明。

4. 功能单一:语言假设为英语,不支持自动语言检测,限制了在多语种环境下的适用性。

5. 来源可信度低:维护者为个人开发者,无组织背书和开源许可证,增加了长期维护和安全性的不确定性。

适合的目标群体

该技能最适合熟悉命令行操作、需要频繁处理英文语音备忘录的个人用户或技术开发者。尤其是那些经常需要将快速口述的想法、会议记录或语音指令转化为文字以驱动后续工作流的效率型用户。对于依赖特定行话或人名的团队(如科技创业团队),其自定义词汇修正功能极具吸引力。

使用可能存在的常规风险

1. 供应链安全风险:由于核心 transcribe 脚本未被包含在已审计的技能包内,用户下载后实际运行的代码可能存在未知行为,尽管静态审计未发现恶意模式,但无法排除遗漏的可能。
2. 第三方数据共享风险:所有音频文件在转录过程中将被上传至 OpenAI 服务器,存在潜在的隐私数据泄露风险,特别不适合处理包含个人身份信息、商业机密或其他敏感内容的音频。

3. 依赖性能风险:完全依赖 OpenAI API 服务,网络状况和 API 服务的可用性将直接影响转录功能的使用,缺乏离线备用方案。

4. 运行环境风险:硬编码的用户路径和平台特定命令意味着在非原始作者环境下,技能可能完全无法运行,用户需自行修改或修复路径问题。

Voice Transcribe 内容

手动下载zip · 1.4 kB
replacements.txttext/plain
请选择文件