使用说明

yap 是一款专为 macOS 平台设计的本地语音转文本工具，充分利用 Apple 原生的 Speech.framework 框架，为用户提供离线、高效的音频转录服务。作为纯文档型 Skill，它通过封装 yap 命令行工具的使用方法，帮助用户快速上手本地语音识别功能。

核心用法
该 Skill 主要用于指导用户使用 yap 工具进行音频文件转录。基础使用流程十分简单：安装 yap 工具后，通过 yap transcribe 命令加上音频文件路径即可开始转录。工具支持多种实用选项，包括通过 --locale 指定语言环境（如 zh-CN、en-US），使用 --censor 自动屏蔽敏感词汇，以及通过 --srt 生成字幕文件格式。用户还可以利用 -o 参数将结果保存到指定文件，而非输出到标准输出流。

显著优点
相较于流行的 Whisper 等方案，yap 具有明显优势。首先，它基于 Apple 原生的 Speech.framework，针对 Apple Silicon 芯片进行了深度优化，无需下载额外的 AI 模型即可工作。其次，所有转录过程均在本地完成，音频数据不会上传到任何云端服务器，极大保护了用户隐私。在性能方面，yap 处理速度更快，内存占用更低，特别适合处理大量音频文件或长时录音。此外，直接生成 SRT 字幕文件的功能，使其成为视频创作者的理想选择。

潜在缺点或局限性
该 Skill 存在若干限制。最显著的是系统要求严苛，仅支持 macOS 26 (Tahoe) 或更高版本，排除了大量旧版系统用户。其次，语言支持取决于用户本地安装的 Apple Speech 模型，对于小众语种的转录能力可能受限。作为 T3 来源的个人项目，长期维护的稳定性有待观察。此外，它仅支持 macOS 平台，Windows 和 Linux 用户无法使用。

适合的目标群体
yap 最适合以下用户：macOS 26+ 系统的用户、注重隐私且不希望音频数据上云的个人或企业用户、需要快速生成视频字幕的内容创作者、播客制作者、以及需要批量处理音频文件的办公人员。对于已经深度融入 Apple 生态，使用 Apple Silicon 设备的用户，体验尤为出色。

使用风险
使用该 Skill 的常规风险主要包括：依赖上游 yap 工具的维护状态，由于是个人开发者维护（T3来源），存在更新不及时或停止维护的可能；需要用户通过 Homebrew 自行安装 yap 二进制文件，若从非官方渠道安装可能引入安全风险；系统版本要求较高，升级 macOS 版本可能带来兼容性成本；此外，本地转录质量受限于 Apple Speech 框架的识别准确率，对于专业级转录需求可能仍需人工校对。

安全解读

核心用法

yap 是一款基于 Apple Speech.framework 的 macOS 本地语音识别工具封装，通过 OpenClaw 提供便捷的语音转文字能力。核心命令包括 yap transcribe <文件路径>，支持 MP3、M4A、MP4 等多种音视频格式。用户可通过 --locale 指定语言区域（如 zh-CN、en-US），通过 --srt 生成字幕文件，或通过 --censor 开启敏感词过滤。

显著优点

1. 原生性能优化：直接调用 Apple Speech.framework，针对 Apple Silicon 芯片深度优化，转录速度显著快于 Whisper 等跨平台方案。
2. 零模型负担：无需下载或管理庞大的 AI 模型文件，系统已预装所需语音模型，节省磁盘空间和首次配置时间。
3. 隐私优先：完全本地处理，音频数据不上传云端，适合敏感内容转录场景。
4. 格式灵活：支持纯文本（默认）、SRT 字幕两种输出格式，可直接用于视频后期制作。

潜在缺点与局限性

1. 系统版本门槛：强制要求 macOS 26 (Tahoe) 或更高版本，老旧 Mac 设备无法使用。
2. 语言依赖系统：支持的语言取决于用户系统已安装的 Apple Speech 模型，部分小语种可能不可用。
3. 功能相对简单：作为系统 API 的轻量封装，不支持 Whisper 的说话人分离、时间戳微调等高级功能。
4. 平台锁定：仅限 macOS，无跨平台能力。

适合人群

视频创作者：需要快速为 Mac 上的素材生成字幕，追求效率而非极致精度。
隐私敏感用户：处理机密会议录音、个人语音备忘录，拒绝云端服务。
Apple 生态深度用户：已升级 macOS 26+，希望充分利用系统原生能力。

常规风险

上游维护风险：来源为 GitHub 个人用户账号（T2 级别），非顶级开源基金会，长期维护稳定性需观察。
版本兼容性：依赖外部 brew 包 finnvoor/tools/yap，若上游 CLI 更新可能引入接口变更。
功能边界认知：部分用户可能误将其与 Whisper 的全能能力对比，需明确其定位轻量、快速、原生优先。

productivity content-media speech-to-text macos

yap 内容

手动下载zip · 1.0 kB

SKILL.mdtext/markdown

请选择文件