macOS Local Voice 是一款专为 macOS 用户设计的完全本地化的语音处理工具,集成语音识别(STT)与语音合成(TTS)功能,利用 Apple 原生的 Speech.framework 和 say 命令,无需联网即可实现高质量的语音交互。
核心用法:该 Skill 提供三个主要功能模块。语音转文字(STT)通过 yap CLI 调用 Apple 本地语音识别引擎,支持包括中文(zh_CN)、英语(en_US)、日语(ja_JP)在内的数十种语言,可处理 ogg、m4a、mp3、wav 等多种音频格式。文字转语音(TTS)则利用系统内置的 say 命令,结合 ffmpeg 进行音频格式转换,支持输出高质量的 ogg/opus 格式音频文件,适用于即时通讯平台的发送。此外,语音管理模块允许用户查询、检测和自动选择最优语音,支持 Compact、Enhanced、Premium 三种质量等级。
显著优点:最大的优势在于完全离线处理,所有语音数据均在本地完成转换,无需上传至云端,从根本上保障了用户隐私安全。其次,零配置成本,无需申请 API 密钥或订阅第三方服务,安装依赖后即可无限次使用。得益于 Apple 原生的神经网络引擎优化,语音识别准确率和语音合成自然度均达到商用级别,特别是 Premium 级别的高质量语音(如 Yue、Ava)表现力接近真人。自动语言检测和智能语音选择功能进一步降低了使用门槛。
潜在缺点:该 Skill 存在明显的平台限制,仅支持 macOS 系统(Darwin),Windows 和 Linux 用户无法使用。功能上依赖外部命令行工具 yap,需要用户通过 Homebrew 额外安装,增加了初次配置的复杂度。Premium 质量语音虽然效果出色,但需要用户手动在系统设置中下载,且占用较大存储空间。此外,不支持 Siri 语音库,且缺乏实时流式识别能力,仅适合处理录音文件而非实时会议转录。
适合群体:主要面向注重隐私保护的 macOS 用户、需要离线语音功能的开发者、以及希望为 AI 助手添加语音交互能力的 OpenClaw/Claude Code 用户。特别适合处理敏感语音内容的场景,如医疗记录转录、法律文件整理等隐私要求严格的工作流。
使用风险:常规风险主要包括依赖项管理,若 yap 或 ffmpeg 未正确安装会导致功能异常。权限方面,首次使用麦克风时需授权系统权限,且 Skill 本身无法直接控制该权限申请。此外,say 命令在指定语音不可用时可能静默回退到默认语音,建议在关键场景下先使用 voices.mjs check 验证语音可用性。输出文件默认存储于 ~/.openclaw/media/outbound/,长期使用需注意磁盘空间管理。