MLX Audio Server

🦞 Apple Silicon 本地语音 API 服务器

ai榜 #7

基于 Apple MLX 框架的本地 OpenAI 兼容语音 API 服务器,支持 STT/TTS,Apple Silicon 专属高性能方案。

收藏
5.4k
安装
2.7k
版本
0.1.3
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

MLX Audio Server 将 mlx-audio 封装为后台常驻的 OpenAI 兼容 API 服务,专为 Apple Silicon Mac 设计。安装后通过 launchd 在后台运行,默认监听 8899 端口。

语音转文字 (STT):调用 run_stt.sh 传入音频/视频路径,自动转码为 WAV 后返回纯文本转录结果。

文字转语音 (TTS):调用 run_tts.sh 传入文本,生成 speech.wav 并输出文件路径,支持自定义输出目录。

模型采用量化版本以平衡速度与精度:STT 默认使用 glm-asr-nano-2512-8bit,TTS 使用 Qwen3-TTS-12Hz-1.7B-VoiceDesign-bf16,首次运行会自动下载。

显著优点

  • 本地优先:完全离线运行,语音数据不上传云端,隐私安全性极高
  • Apple Silicon 原生优化:基于 MLX 框架深度利用 GPU/Neural Engine,推理速度快
  • OpenAI API 兼容:接口格式与 OpenAI 一致,降低 AI Agent 接入成本
  • 零配置启动:一键安装脚本自动处理依赖、虚拟环境和后台服务注册
  • 模型选择灵活:社区支持多种量化版本,可按精度/速度需求切换

潜在缺点与局限性

  • 平台锁定:仅限 macOS + Apple Silicon,Intel Mac 及 Linux/Windows 无法使用
  • 依赖 Homebrew:要求系统预装 brew,部分企业环境可能受限
  • 首次下载耗时:模型体积大(数 GB),首次使用需等待下载
  • 内存占用:大模型运行时对统一内存压力较大,低配置机型可能吃紧
  • 服务稳定性:作为用户域 launchd 服务,系统睡眠或资源紧张时可能异常

适合人群

  • 注重隐私、需离线语音能力的开发者/研究者
  • Apple Silicon Mac 用户(MacBook/Mac mini)构建本地 AI 工作流
  • 需要将语音能力集成到 AI Agent 的技术团队
  • 对 OpenAI API 有依赖但希望降低调用成本或延迟的场景

常规风险

  • 服务可用性:后台服务可能因系统更新、权限变更或资源竞争停止,需监控健康状态
  • 模型版权:使用开源模型需遵守相应许可证(GLM-4、Qwen 等),商用需核实授权条款
  • 输出质量波动:量化模型在复杂口音、专业术语场景下准确率可能下降
  • 存储膨胀:模型缓存持续占用磁盘空间,需定期清理旧版本

MLX Audio Server 内容

手动下载zip · 3.2 kB
install.shtext/x-shellscript
请选择文件