使用说明

核心用法

voice-transcribe 是一款调用 OpenAI GPT-4o-mini-transcribe 模型的语音转录 Skill。用户通过 uv run 命令直接执行，将本地音频文件转为文本。支持 MP3、WAV、OGG 等主流格式，并通过 SHA256 缓存避免重复调用 API。

显著优点：

极简工作流：专为 WhatsApp 语音备忘录场景设计，一行命令完成转录
可定制词汇：通过 vocab.txt 提供人名/术语提示，replacements.txt 实现确定性文本替换，有效解决专业词汇误识别
零依赖部署：仅依赖 uv 运行时，无额外 Python 包管理负担
管道友好：支持标准输出管道，可无缝对接 pbcopy 等工具

潜在缺点与局限性：

语言锁定：仅支持英语，无自动语言检测
外部 API 依赖：必须配置 OpenAI API Key，产生调用成本与网络依赖
纯文档型实现：实际可执行文件 transcribe 未在 Skill 中提供，需用户自行准备或推断
隐私考量：音频数据需上传至 OpenAI 服务器处理

适合人群：

高频接收英语语音消息的商务/个人用户
需要快速归档会议纪要、访谈录音的知识工作者
已持有 OpenAI API Key 的技术用户

常规风险：
API 密钥以 .env 文件形式本地存储，存在误提交版本控制的风险；建议配合 direnv 或系统密钥管理工具使用。转录内容准确性受音频质量与模型能力限制，关键场景需人工复核。

安全解读

综合评估：voice-transcribe 语音转录技能

核心用法

voice-transcribe 是一个基于 OpenAI gpt-4o-mini-transcribe 模型的命令行语音转录工具，旨在快速处理语音备忘录（如来自 WhatsApp 的语音消息），将其转换为可编辑的文本。用户通过 uv run 命令直接调用，支持 mp3、wav 等主流音频格式。技能内置了自定义词汇提示（vocab.txt）和文本替换（replacements.txt）功能，允许用户通过简单的文本文件修正专有名词、人名或行业术语的识别错误。音频文件通过 SHA256 哈希进行本地缓存，避免重复处理。

显著优点

1. 操作极简：只需一条命令即可完成转录，完美契合语音备忘录的快速处理需求。
2. 模型优秀：直接采用 OpenAI 先进的 gpt-4o-mini-transcribe 模型，保证了较高的转录准确率。
3. 用户可控的修正能力：通过 vocab.txt 和 replacements.txt 两个纯文本文件，用户可以高效、持久地纠正常见的转录错误，特别适合包含特定人名、品牌名或技术术语的场景。
4. 本地智能缓存：基于音频文件的 SHA256 哈希值进行缓存，避免了对相同内容的重复 API 调用，节省了成本和时间。
5. 架构简单透明：技能包仅由少量纯文本文件构成，依赖清晰，无复杂的外部依赖，易于理解和维护。

潜在缺点与局限性

1. 核心代码缺失是最大硬伤：技能包内不含 transcribe 核心可执行脚本，导致无法进行完整的代码审查与功能验证，形成供应链盲区。
2. 平台与路径硬编码：SKILL.md 中硬编码了特定 macOS 用户（darin）的个人文件路径，并使用了 macOS 专属工具（pbcopy），严重限制了技能的跨平台和跨用户移植能力。
3. 隐私实践缺失：作为一款音频处理工具，文档中未明确告知用户音频数据将被发送至第三方服务（OpenAI API），也未说明数据保留及删除策略，缺乏隐私保护声明。
4. 功能单一：语言假设为英语，不支持自动语言检测，限制了在多语种环境下的适用性。
5. 来源可信度低：维护者为个人开发者，无组织背书和开源许可证，增加了长期维护和安全性的不确定性。

适合的目标群体

该技能最适合熟悉命令行操作、需要频繁处理英文语音备忘录的个人用户或技术开发者。尤其是那些经常需要将快速口述的想法、会议记录或语音指令转化为文字以驱动后续工作流的效率型用户。对于依赖特定行话或人名的团队（如科技创业团队），其自定义词汇修正功能极具吸引力。

使用可能存在的常规风险

1. 供应链安全风险：由于核心 transcribe 脚本未被包含在已审计的技能包内，用户下载后实际运行的代码可能存在未知行为，尽管静态审计未发现恶意模式，但无法排除遗漏的可能。
2. 第三方数据共享风险：所有音频文件在转录过程中将被上传至 OpenAI 服务器，存在潜在的隐私数据泄露风险，特别不适合处理包含个人身份信息、商业机密或其他敏感内容的音频。
3. 依赖性能风险：完全依赖 OpenAI API 服务，网络状况和 API 服务的可用性将直接影响转录功能的使用，缺乏离线备用方案。
4. 运行环境风险：硬编码的用户路径和平台特定命令意味着在非原始作者环境下，技能可能完全无法运行，用户需自行修改或修复路径问题。

voice-recognition openai-api transcription audio-processing cli-tool productivity

Voice Transcribe 内容

手动下载zip · 1.4 kB

replacements.txttext/plain

请选择文件