local-voice

🎙️ Apple Silicon 本地语音合成与识别

🥥30总安装量 12评分人数 8
100% 的用户推荐

基于 FluidAudio 与 Apple Neural Engine 的本地语音合成与识别方案,实现亚秒级延迟的离线 TTS/STT,确保语音数据 100% 本地处理。

A

基本安全,请在特定环境下使用

  • 来自社区或个人来源,建议先隔离验证
  • ✅ 100% 本地运行,语音数据不上传云端,隐私保护极佳
  • ✅ 无 eval/exec 等危险函数,无 SQL/命令注入漏洞,代码安全规范
  • ✅ HTTP 服务仅绑定本地地址(127.0.0.1),无外部网络暴露风险
  • ⚠️ 来源为个人开发者账号(T3 等级),建议审查代码后再使用
  • ⚠️ 需通过 Homebrew 安装第三方依赖 espeak-ng,存在供应链依赖风险

使用说明

Local Voice 是一款专为 Apple Silicon Mac 设计的本地语音 AI 解决方案,基于 FluidAudio 框架和 Apple Neural Engine 实现完全离线的文本转语音(TTS)与语音转文本(STT)功能。该 Skill 通过在本地启动 Swift 编写的 HTTP 守护进程(默认监听 127.0.0.1:18790),为开发者提供亚秒级延迟的语音 API 服务,彻底摆脱对云端语音服务的依赖。

核心用法上,用户需先通过 Swift Package Manager 编译安装 StellaVoice 守护进程,并配置 LaunchAgent 实现开机自启。服务启动后,可通过简单的 HTTP POST 请求调用 TTS(/synthesize)和 STT(/transcribe)端点,支持 Kokoro 模型的 54 种语音风格、语速调节(0.5-2.0x)以及基础 SSML 标签,满足从自然对话到表达性朗读的多种场景需求。

显著优点在于其极致的隐私保护机制——所有语音数据均在本地通过 Apple Neural Engine 处理,不上传至任何第三方服务器,特别适合处理敏感语音内容。同时,亚秒级的响应延迟(TTS 0.6-0.8s,STT 0.2-0.3s)与零 API 调用成本,使其在实时语音助手、离线工作流等场景具有显著优势。54 种预设语音(如 af_heart、af_bella)提供了丰富的音色选择。

然而,该 Skill 也存在明显局限性。首先,严格的硬件限制使其仅支持 Apple Silicon(M1/M2/M3/M4)架构,Intel Mac 用户无法使用。其次,首次启动时需加载 CoreML 模型(约 8-10 秒),且需要用户具备一定的命令行操作能力完成编译安装和依赖配置(espeak-ng)。作为 T3 来源的个人项目,长期维护稳定性和功能更新存在不确定性。

适合的目标群体包括:注重隐私安全的个人用户、需要在离线环境下工作的专业人士、Apple Silicon 平台的语音助手开发者,以及希望替代昂贵云端语音 API 的初创团队。

使用风险方面,除上述硬件和架构限制外,用户需注意依赖项管理(通过 Homebrew 安装的 espeak-ng),并承担个人开发者项目的维护风险。建议生产环境使用前先进行充分的稳定性测试。

local-voice 内容

文件夹图标references文件夹
文件夹图标scripts文件夹
文件夹图标sources文件夹
文件夹图标Sources文件夹
文件夹图标StellaVoice文件夹
手动下载zip · 7.8 kB
VOICES.mdtext/markdown
请选择文件