核心用法
mlx-audio-server 将 Apple MLX 框架的高性能音频处理能力封装为后台服务,通过 OpenAI 兼容 API 提供语音识别(STT)与语音合成(TTS)功能。安装脚本自动完成环境配置、依赖安装及 launchd 服务注册,默认监听 8899 端口。
Speech-to-Text: 使用 run_stt.sh 脚本处理音视频文件,自动转码为 WAV 后调用 mlx-community/glm-asr-nano-2512-8bit 模型输出纯文本。
Text-to-Speech: 使用 run_tts.sh 脚本将文本转换为语音,默认保存至临时目录或指定输出路径,采用 mlx-community/Qwen3-TTS-12Hz-1.7B-VoiceDesign-bf16 模型。
显著优点
- 完全本地运行:模型与推理均在设备端完成,音频数据不上传云端,隐私保护彻底
- Apple Silicon 优化:基于 MLX 框架深度利用 M 系列芯片的 GPU 与 Neural Engine,推理速度快
- OpenAI 兼容 API:标准
/v1/audio/transcriptions和/v1/audio/speech接口,现有 AI 代理可无缝接入 - 后台常驻服务:通过 launchd 管理,随系统启动自动运行,无需手动维护
- 开箱即用:一键安装脚本处理依赖与配置,首次运行自动下载模型
潜在缺点与局限性
- 平台锁定:仅支持 macOS + Apple Silicon,Intel Mac 或 Linux/Windows 无法使用
- 模型下载延迟:首次启动需下载数 GB 模型文件,耗时取决于网络
- 存储占用:两个默认模型合计约 3-4GB,持续使用更多模型将占用显著磁盘空间
- 依赖 Homebrew:必须预装 brew,部分企业环境可能受限
- 无 GPU 加速备选:非 Apple Silicon 设备完全无法运行,无降级方案
适合人群
- 注重隐私的开发者与 AI 代理构建者
- macOS 生态下的语音应用开发者
- 需要离线语音能力的自动化工作流用户
- 已有 OpenAI API 集成但希望迁移至本地方案的团队
常规风险
- 资源消耗:持续后台运行占用内存与 CPU,可能影响笔记本续航
- 模型热加载:首次推理存在编译与缓存延迟,生产环境建议预热
- 版本漂移:fork 的 mlx-audio 仓库与上游同步延迟可能引入兼容性问题
- 音频格式依赖:STT 脚本依赖 ffmpeg,若 brew 安装失败则功能异常