MLX Audio Server

🦞 Apple Silicon 本地语音服务引擎

在 Apple Silicon 上快速运行本地语音转文字与文字转语音服务,提供 OpenAI 兼容 API,保护隐私无需联网。

收藏
13.1k
安装
2.7k
版本
0.1.2
CLS 安全性认证2026-05-14
点击查看完整报告 >

使用说明

核心用法

mlx-audio-server 将 Apple MLX 框架的高性能音频处理能力封装为后台服务,通过 OpenAI 兼容 API 提供语音识别(STT)与语音合成(TTS)功能。安装脚本自动完成环境配置、依赖安装及 launchd 服务注册,默认监听 8899 端口。

Speech-to-Text: 使用 run_stt.sh 脚本处理音视频文件,自动转码为 WAV 后调用 mlx-community/glm-asr-nano-2512-8bit 模型输出纯文本。

Text-to-Speech: 使用 run_tts.sh 脚本将文本转换为语音,默认保存至临时目录或指定输出路径,采用 mlx-community/Qwen3-TTS-12Hz-1.7B-VoiceDesign-bf16 模型。

显著优点

  • 完全本地运行:模型与推理均在设备端完成,音频数据不上传云端,隐私保护彻底
  • Apple Silicon 优化:基于 MLX 框架深度利用 M 系列芯片的 GPU 与 Neural Engine,推理速度快
  • OpenAI 兼容 API:标准 /v1/audio/transcriptions/v1/audio/speech 接口,现有 AI 代理可无缝接入
  • 后台常驻服务:通过 launchd 管理,随系统启动自动运行,无需手动维护
  • 开箱即用:一键安装脚本处理依赖与配置,首次运行自动下载模型

潜在缺点与局限性

  • 平台锁定:仅支持 macOS + Apple Silicon,Intel Mac 或 Linux/Windows 无法使用
  • 模型下载延迟:首次启动需下载数 GB 模型文件,耗时取决于网络
  • 存储占用:两个默认模型合计约 3-4GB,持续使用更多模型将占用显著磁盘空间
  • 依赖 Homebrew:必须预装 brew,部分企业环境可能受限
  • 无 GPU 加速备选:非 Apple Silicon 设备完全无法运行,无降级方案

适合人群

  • 注重隐私的开发者与 AI 代理构建者
  • macOS 生态下的语音应用开发者
  • 需要离线语音能力的自动化工作流用户
  • 已有 OpenAI API 集成但希望迁移至本地方案的团队

常规风险

  • 资源消耗:持续后台运行占用内存与 CPU,可能影响笔记本续航
  • 模型热加载:首次推理存在编译与缓存延迟,生产环境建议预热
  • 版本漂移:fork 的 mlx-audio 仓库与上游同步延迟可能引入兼容性问题
  • 音频格式依赖:STT 脚本依赖 ffmpeg,若 brew 安装失败则功能异常

安全解读

核心用法

mlx-audio-server 是围绕 Apple MLX 深度学习框架构建的本地音频处理服务封装,将开源项目 mlx-audio 转化为后台常驻的 OpenAI 兼容 API 服务。安装后自动部署为 macOS launchd 守护进程,默认监听 localhost:8899,提供两大核心能力:

  • STT(语音转文本):调用 /v1/audio/transcriptions,默认使用 glm-asr-nano-2512-8bit 模型,支持自动 ffmpeg 格式转换
  • TTS(文本转语音):调用 /v1/audio/speech,默认使用 Qwen3-TTS-12Hz-1.7B-VoiceDesign-bf16,支持语音克隆

Skill 提供 run_stt.shrun_tts.sh 作为命令行入口,也可直接作为 AI Agent 的 API 端点集成。首次运行需下载模型,后续调用完全本地离线。

显著优点

1. 隐私绝对可控:音频数据全程本地处理,零上传云端,符合 GDPR/CCPA 合规要求
2. 硬件性能优化:基于 MLX 框架深度适配 Apple Silicon(M1/M2/M3/M4),NPU/GPU 加速推理

3. 生态兼容性强:OpenAI API 格式兼容,现有 OpenAI SDK、LangChain、LlamaIndex 等可直接调用

4. 部署零配置:一键安装即服务化,brew 自动处理依赖,无需手动配置 Python 环境

5. 开源模型丰富:支持 GLM-ASR、Qwen-TTS、Kokoro、OuteTTS 等社区活跃模型,可自由切换

潜在缺点与局限性

  • 平台锁定:仅限 macOS + Apple Silicon,Intel Mac 或 Linux/Windows 无法运行
  • 首载延迟:首次使用需下载 GB 级模型文件,网络条件差时体验受阻
  • 服务绑定风险:默认监听 0.0.0.0,局域网可达,需手动加固为 127.0.0.1
  • 供应链依赖:从 GitHub fork 克隆代码,版本未锁定,存在潜在供应链风险
  • 无内置服务管理:仅提供安装脚本,缺少显式启停/状态检查命令

适合人群

  • 注重隐私的开发者(医疗、法律、金融等敏感场景)
  • 已有 Apple Silicon Mac 的 AI 应用开发者
  • 需要离线语音能力的桌面自动化/Agent 开发者
  • 希望降低 OpenAI API 成本且可接受本地算力消耗的用户

常规风险

  • 网络暴露风险:默认配置下局域网可访问,公共网络环境需额外加固
  • 后台服务持续运行:launchd 服务常驻占用内存,低内存设备需注意
  • 模型版权与合规:合成语音的商用需确认具体模型许可(如 Qwen、GLM 系列)
  • 依赖更新不可控git pull 自动更新可能引入 breaking change

MLX Audio Server 内容

手动下载zip · 3.2 kB
install.shtext/x-shellscript
请选择文件