skills/guoqiao/MLX Audio Server

MLX Audio Server

🦞 Apple Silicon 本地语音 API 服务器

ai榜 #7

基于 Apple MLX 框架的本地 OpenAI 兼容语音 API 服务器，支持 STT/TTS，Apple Silicon 专属高性能方案。

收藏

5.4k

安装

2.7k

版本

0.1.3

CLS 安全扫描中

预计需要 3 分钟...

使用说明

核心用法

MLX Audio Server 将 mlx-audio 封装为后台常驻的 OpenAI 兼容 API 服务，专为 Apple Silicon Mac 设计。安装后通过 launchd 在后台运行，默认监听 8899 端口。

语音转文字 (STT)：调用 run_stt.sh 传入音频/视频路径，自动转码为 WAV 后返回纯文本转录结果。

文字转语音 (TTS)：调用 run_tts.sh 传入文本，生成 speech.wav 并输出文件路径，支持自定义输出目录。

模型采用量化版本以平衡速度与精度：STT 默认使用 glm-asr-nano-2512-8bit，TTS 使用 Qwen3-TTS-12Hz-1.7B-VoiceDesign-bf16，首次运行会自动下载。

显著优点

本地优先：完全离线运行，语音数据不上传云端，隐私安全性极高
Apple Silicon 原生优化：基于 MLX 框架深度利用 GPU/Neural Engine，推理速度快
OpenAI API 兼容：接口格式与 OpenAI 一致，降低 AI Agent 接入成本
零配置启动：一键安装脚本自动处理依赖、虚拟环境和后台服务注册
模型选择灵活：社区支持多种量化版本，可按精度/速度需求切换

潜在缺点与局限性

平台锁定：仅限 macOS + Apple Silicon，Intel Mac 及 Linux/Windows 无法使用
依赖 Homebrew：要求系统预装 brew，部分企业环境可能受限
首次下载耗时：模型体积大（数 GB），首次使用需等待下载
内存占用：大模型运行时对统一内存压力较大，低配置机型可能吃紧
服务稳定性：作为用户域 launchd 服务，系统睡眠或资源紧张时可能异常

适合人群

注重隐私、需离线语音能力的开发者/研究者
Apple Silicon Mac 用户（MacBook/Mac mini）构建本地 AI 工作流
需要将语音能力集成到 AI Agent 的技术团队
对 OpenAI API 有依赖但希望降低调用成本或延迟的场景

常规风险

服务可用性：后台服务可能因系统更新、权限变更或资源竞争停止，需监控健康状态
模型版权：使用开源模型需遵守相应许可证（GLM-4、Qwen 等），商用需核实授权条款
输出质量波动：量化模型在复杂口音、专业术语场景下准确率可能下降
存储膨胀：模型缓存持续占用磁盘空间，需定期清理旧版本

speech-to-text text-to-speech mlx apple-silicon local-api openai-compatible privacy-focused macos

MLX Audio Server 内容

手动下载zip · 3.2 kB

install.shtext/x-shellscript

请选择文件