local-voice - Apple Silicon 本地语音合成与识别

使用说明

Local Voice 是一款专为 Apple Silicon Mac 设计的本地语音 AI 解决方案，基于 FluidAudio 框架和 Apple Neural Engine 实现完全离线的文本转语音（TTS）与语音转文本（STT）功能。该 Skill 通过在本地启动 Swift 编写的 HTTP 守护进程（默认监听 127.0.0.1:18790），为开发者提供亚秒级延迟的语音 API 服务，彻底摆脱对云端语音服务的依赖。

核心用法上，用户需先通过 Swift Package Manager 编译安装 StellaVoice 守护进程，并配置 LaunchAgent 实现开机自启。服务启动后，可通过简单的 HTTP POST 请求调用 TTS（/synthesize）和 STT（/transcribe）端点，支持 Kokoro 模型的 54 种语音风格、语速调节（0.5-2.0x）以及基础 SSML 标签，满足从自然对话到表达性朗读的多种场景需求。

显著优点在于其极致的隐私保护机制——所有语音数据均在本地通过 Apple Neural Engine 处理，不上传至任何第三方服务器，特别适合处理敏感语音内容。同时，亚秒级的响应延迟（TTS 0.6-0.8s，STT 0.2-0.3s）与零 API 调用成本，使其在实时语音助手、离线工作流等场景具有显著优势。54 种预设语音（如 af_heart、af_bella）提供了丰富的音色选择。

然而，该 Skill 也存在明显局限性。首先，严格的硬件限制使其仅支持 Apple Silicon（M1/M2/M3/M4）架构，Intel Mac 用户无法使用。其次，首次启动时需加载 CoreML 模型（约 8-10 秒），且需要用户具备一定的命令行操作能力完成编译安装和依赖配置（espeak-ng）。作为 T3 来源的个人项目，长期维护稳定性和功能更新存在不确定性。

适合的目标群体包括：注重隐私安全的个人用户、需要在离线环境下工作的专业人士、Apple Silicon 平台的语音助手开发者，以及希望替代昂贵云端语音 API 的初创团队。

使用风险方面，除上述硬件和架构限制外，用户需注意依赖项管理（通过 Homebrew 安装的 espeak-ng），并承担个人开发者项目的维护风险。建议生产环境使用前先进行充分的稳定性测试。

content-media productivity automation api development-engineering

local-voice 内容

references文件夹

scripts文件夹

sources文件夹

Sources文件夹

StellaVoice文件夹

手动下载zip · 7.8 kB

VOICES.mdtext/markdown

请选择文件