MLX Audio Server

🦞 Apple Silicon 本地语音服务引擎

在 Apple Silicon 上快速运行本地语音转文字与文字转语音服务,提供 OpenAI 兼容 API,保护隐私无需联网。

收藏
13.1k
安装
2.7k
版本
0.1.2
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

mlx-audio-server 将 Apple MLX 框架的高性能音频处理能力封装为后台服务,通过 OpenAI 兼容 API 提供语音识别(STT)与语音合成(TTS)功能。安装脚本自动完成环境配置、依赖安装及 launchd 服务注册,默认监听 8899 端口。

Speech-to-Text: 使用 run_stt.sh 脚本处理音视频文件,自动转码为 WAV 后调用 mlx-community/glm-asr-nano-2512-8bit 模型输出纯文本。

Text-to-Speech: 使用 run_tts.sh 脚本将文本转换为语音,默认保存至临时目录或指定输出路径,采用 mlx-community/Qwen3-TTS-12Hz-1.7B-VoiceDesign-bf16 模型。

显著优点

  • 完全本地运行:模型与推理均在设备端完成,音频数据不上传云端,隐私保护彻底
  • Apple Silicon 优化:基于 MLX 框架深度利用 M 系列芯片的 GPU 与 Neural Engine,推理速度快
  • OpenAI 兼容 API:标准 /v1/audio/transcriptions/v1/audio/speech 接口,现有 AI 代理可无缝接入
  • 后台常驻服务:通过 launchd 管理,随系统启动自动运行,无需手动维护
  • 开箱即用:一键安装脚本处理依赖与配置,首次运行自动下载模型

潜在缺点与局限性

  • 平台锁定:仅支持 macOS + Apple Silicon,Intel Mac 或 Linux/Windows 无法使用
  • 模型下载延迟:首次启动需下载数 GB 模型文件,耗时取决于网络
  • 存储占用:两个默认模型合计约 3-4GB,持续使用更多模型将占用显著磁盘空间
  • 依赖 Homebrew:必须预装 brew,部分企业环境可能受限
  • 无 GPU 加速备选:非 Apple Silicon 设备完全无法运行,无降级方案

适合人群

  • 注重隐私的开发者与 AI 代理构建者
  • macOS 生态下的语音应用开发者
  • 需要离线语音能力的自动化工作流用户
  • 已有 OpenAI API 集成但希望迁移至本地方案的团队

常规风险

  • 资源消耗:持续后台运行占用内存与 CPU,可能影响笔记本续航
  • 模型热加载:首次推理存在编译与缓存延迟,生产环境建议预热
  • 版本漂移:fork 的 mlx-audio 仓库与上游同步延迟可能引入兼容性问题
  • 音频格式依赖:STT 脚本依赖 ffmpeg,若 brew 安装失败则功能异常

MLX Audio Server 内容

暂无文件树

手动下载zip · 3.2 kB
contentapplication/octet-stream
请选择文件