使用说明

mlx-audio-server 将 Apple MLX 框架的高性能音频处理能力封装为后台服务，通过 OpenAI 兼容 API 提供语音识别（STT）与语音合成（TTS）功能。安装脚本自动完成环境配置、依赖安装及 launchd 服务注册，默认监听 8899 端口。

Speech-to-Text: 使用 run_stt.sh 脚本处理音视频文件，自动转码为 WAV 后调用 mlx-community/glm-asr-nano-2512-8bit 模型输出纯文本。

Text-to-Speech: 使用 run_tts.sh 脚本将文本转换为语音，默认保存至临时目录或指定输出路径，采用 mlx-community/Qwen3-TTS-12Hz-1.7B-VoiceDesign-bf16 模型。

完全本地运行：模型与推理均在设备端完成，音频数据不上传云端，隐私保护彻底
Apple Silicon 优化：基于 MLX 框架深度利用 M 系列芯片的 GPU 与 Neural Engine，推理速度快
OpenAI 兼容 API：标准 /v1/audio/transcriptions 和 /v1/audio/speech 接口，现有 AI 代理可无缝接入
后台常驻服务：通过 launchd 管理，随系统启动自动运行，无需手动维护
开箱即用：一键安装脚本处理依赖与配置，首次运行自动下载模型

MLX Audio Server 内容

暂无文件树

手动下载zip · 3.2 kB

contentapplication/octet-stream

请选择文件