MLX Audio Server

🎙️ Apple Silicon 专属本地语音 AI

基于 Apple MLX 的本地音频 AI 服务器,支持 TTS/STT/STS,OpenAI 兼容 API,专为 Apple Silicon 优化

收藏
13.3k
安装
2.7k
版本
0.1.1
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

MLX Audio Server 是专为 Apple Silicon(M 系列芯片)设计的本地音频 AI 服务框架,将 Apple 的 MLX 深度学习框架与开源音频模型结合,提供 OpenAI 兼容的 REST API 服务。

功能覆盖:

  • STT(语音转文字):默认使用 mlx-community/glm-asr-nano-2512-8bit,支持音视频文件输入
  • TTS(文字转语音):默认使用 mlx-community/Qwen3-TTS-12Hz-1.7B-VoiceDesign-bf16
  • STS(语音转语音):支持端到端语音转换

部署方式:

  • 通过 install.sh 自动安装,使用 uv 创建独立虚拟环境
  • 注册为 macOS launchd 守护进程,随用户登录自动启动
  • 默认监听 8899 端口,提供 OpenAI 格式的 /v1/audio/* 端点

显著优点

1. Apple Silicon 原生优化:基于 MLX 框架,充分利用 Neural Engine 和统一内存架构,推理效率远超 PyTorch 方案
2. 完全本地运行:无需云端 API,零订阅费用,数据不出设备

3. OpenAI 兼容:现有应用可无缝迁移,支持 whisper.cpp 生态的工具链

4. 自动化运维:plist 服务管理,开机自启,崩溃自动恢复

潜在缺点与局限性

  • 硬件锁死:仅支持 Apple Silicon,Intel Mac 无法运行
  • 首次启动慢:需从 Hugging Face 下载数 GB 模型文件
  • 社区维护:依赖个人 fork 版本,非官方 mlx-audio 主线
  • 生态封闭:MLX 生态较 PyTorch 小众,自定义模型移植成本高

适合人群

  • 注重隐私的 macOS 开发者/创作者
  • 需要离线 TTS/STT 能力的 AI 应用开发者
  • 已投资 Apple Silicon 设备并希望降低 AI 运行成本的用户

常规风险

  • 模型下载依赖 Hugging Face 网络稳定性
  • 8bit 量化模型可能存在精度损失
  • 长期运行需注意散热与内存占用(TTS 模型 1.7B 参数量)
  • 守护进程模式需检查日志排查异常退出

MLX Audio Server 内容

暂无文件树

手动下载zip · 3.2 kB
contentapplication/octet-stream
请选择文件