使用说明

核心用法

MLX Audio Server 是专为 Apple Silicon（M 系列芯片）设计的本地音频 AI 服务框架，将 Apple 的 MLX 深度学习框架与开源音频模型结合，提供 OpenAI 兼容的 REST API 服务。

功能覆盖：

STT（语音转文字）：默认使用 mlx-community/glm-asr-nano-2512-8bit，支持音视频文件输入
TTS（文字转语音）：默认使用 mlx-community/Qwen3-TTS-12Hz-1.7B-VoiceDesign-bf16
STS（语音转语音）：支持端到端语音转换

部署方式：

通过 install.sh 自动安装，使用 uv 创建独立虚拟环境
注册为 macOS launchd 守护进程，随用户登录自动启动
默认监听 8899 端口，提供 OpenAI 格式的 /v1/audio/* 端点

显著优点

1. Apple Silicon 原生优化：基于 MLX 框架，充分利用 Neural Engine 和统一内存架构，推理效率远超 PyTorch 方案
2. 完全本地运行：无需云端 API，零订阅费用，数据不出设备
3. OpenAI 兼容：现有应用可无缝迁移，支持 whisper.cpp 生态的工具链
4. 自动化运维：plist 服务管理，开机自启，崩溃自动恢复

潜在缺点与局限性

硬件锁死：仅支持 Apple Silicon，Intel Mac 无法运行
首次启动慢：需从 Hugging Face 下载数 GB 模型文件
社区维护：依赖个人 fork 版本，非官方 mlx-audio 主线
生态封闭：MLX 生态较 PyTorch 小众，自定义模型移植成本高

适合人群

注重隐私的 macOS 开发者/创作者
需要离线 TTS/STT 能力的 AI 应用开发者
已投资 Apple Silicon 设备并希望降低 AI 运行成本的用户

常规风险

模型下载依赖 Hugging Face 网络稳定性
8bit 量化模型可能存在精度损失
长期运行需注意散热与内存占用（TTS 模型 1.7B 参数量）
守护进程模式需检查日志排查异常退出

tts stt asr mlx apple-silicon openai-compatible local-ai speech-processing macos self-hosted

MLX Audio Server 内容

暂无文件树

手动下载zip · 3.2 kB

contentapplication/octet-stream

请选择文件