Local Voice 是一款专为 Apple Silicon Mac 设计的本地语音 AI 解决方案,基于 FluidAudio 框架和 Apple Neural Engine 实现完全离线的文本转语音(TTS)与语音转文本(STT)功能。该 Skill 通过在本地启动 Swift 编写的 HTTP 守护进程(默认监听 127.0.0.1:18790),为开发者提供亚秒级延迟的语音 API 服务,彻底摆脱对云端语音服务的依赖。
核心用法上,用户需先通过 Swift Package Manager 编译安装 StellaVoice 守护进程,并配置 LaunchAgent 实现开机自启。服务启动后,可通过简单的 HTTP POST 请求调用 TTS(/synthesize)和 STT(/transcribe)端点,支持 Kokoro 模型的 54 种语音风格、语速调节(0.5-2.0x)以及基础 SSML 标签,满足从自然对话到表达性朗读的多种场景需求。
显著优点在于其极致的隐私保护机制——所有语音数据均在本地通过 Apple Neural Engine 处理,不上传至任何第三方服务器,特别适合处理敏感语音内容。同时,亚秒级的响应延迟(TTS 0.6-0.8s,STT 0.2-0.3s)与零 API 调用成本,使其在实时语音助手、离线工作流等场景具有显著优势。54 种预设语音(如 af_heart、af_bella)提供了丰富的音色选择。
然而,该 Skill 也存在明显局限性。首先,严格的硬件限制使其仅支持 Apple Silicon(M1/M2/M3/M4)架构,Intel Mac 用户无法使用。其次,首次启动时需加载 CoreML 模型(约 8-10 秒),且需要用户具备一定的命令行操作能力完成编译安装和依赖配置(espeak-ng)。作为 T3 来源的个人项目,长期维护稳定性和功能更新存在不确定性。
适合的目标群体包括:注重隐私安全的个人用户、需要在离线环境下工作的专业人士、Apple Silicon 平台的语音助手开发者,以及希望替代昂贵云端语音 API 的初创团队。
使用风险方面,除上述硬件和架构限制外,用户需注意依赖项管理(通过 Homebrew 安装的 espeak-ng),并承担个人开发者项目的维护风险。建议生产环境使用前先进行充分的稳定性测试。