核心用法
MLX Audio Server 将 mlx-audio 封装为后台常驻的 OpenAI 兼容 API 服务,专为 Apple Silicon Mac 设计。安装后通过 launchd 在后台运行,默认监听 8899 端口。
语音转文字 (STT):调用 run_stt.sh 传入音频/视频路径,自动转码为 WAV 后返回纯文本转录结果。
文字转语音 (TTS):调用 run_tts.sh 传入文本,生成 speech.wav 并输出文件路径,支持自定义输出目录。
模型采用量化版本以平衡速度与精度:STT 默认使用 glm-asr-nano-2512-8bit,TTS 使用 Qwen3-TTS-12Hz-1.7B-VoiceDesign-bf16,首次运行会自动下载。
显著优点
- 本地优先:完全离线运行,语音数据不上传云端,隐私安全性极高
- Apple Silicon 原生优化:基于 MLX 框架深度利用 GPU/Neural Engine,推理速度快
- OpenAI API 兼容:接口格式与 OpenAI 一致,降低 AI Agent 接入成本
- 零配置启动:一键安装脚本自动处理依赖、虚拟环境和后台服务注册
- 模型选择灵活:社区支持多种量化版本,可按精度/速度需求切换
潜在缺点与局限性
- 平台锁定:仅限 macOS + Apple Silicon,Intel Mac 及 Linux/Windows 无法使用
- 依赖 Homebrew:要求系统预装
brew,部分企业环境可能受限 - 首次下载耗时:模型体积大(数 GB),首次使用需等待下载
- 内存占用:大模型运行时对统一内存压力较大,低配置机型可能吃紧
- 服务稳定性:作为用户域
launchd服务,系统睡眠或资源紧张时可能异常
适合人群
- 注重隐私、需离线语音能力的开发者/研究者
- Apple Silicon Mac 用户(MacBook/Mac mini)构建本地 AI 工作流
- 需要将语音能力集成到 AI Agent 的技术团队
- 对 OpenAI API 有依赖但希望降低调用成本或延迟的场景
常规风险
- 服务可用性:后台服务可能因系统更新、权限变更或资源竞争停止,需监控健康状态
- 模型版权:使用开源模型需遵守相应许可证(GLM-4、Qwen 等),商用需核实授权条款
- 输出质量波动:量化模型在复杂口音、专业术语场景下准确率可能下降
- 存储膨胀:模型缓存持续占用磁盘空间,需定期清理旧版本