使用说明

核心用法

MLX STT 是一款专为 Apple Silicon 设计的本地语音转文字工具，通过 MLX 框架运行 GLM-ASR-Nano-2512-8bit 模型实现离线 ASR。用户只需执行 uv run mlx-stt.py <音频路径> 即可完成转录，首次运行自动从 Hugging Face 拉取约 2.5GB 模型文件。

显著优点

1. 完全本地化：无需网络 API、无需订阅费用、无隐私外泄风险
2. Apple Silicon 深度优化：基于 Apple 原生 MLX 框架，充分利用 Neural Engine
3. 模型轻量化：8-bit 量化后仅 2.5GB，在消费级 Mac 上可流畅运行
4. 零配置门槛：通过 brew 自动管理 ffmpeg、uv 等依赖
5. GLM-ASR 背书：智谱 AI 开源模型，中文场景表现优异

潜在局限

平台锁定：仅限 macOS + Apple Silicon（M1/M2/M3/M4）
首冷启动：初次下载模型耗时较长
无实时流式：目前为文件批处理模式，非实时麦克风输入
英文支持待验证：GLM-ASR 系列以中文优化为主

适合人群

重视隐私的 Mac 用户（律师、医生、记者）
需离线处理敏感音频的企业内网环境
中文语音转录需求为主的创作者
希望避免 API 订阅成本的个人开发者

常规风险

模型文件来源为 Hugging Face 社区频道，非官方 mlx-community 主仓
依赖 uv 包管理器的供应链安全
长时间音频转录可能导致风扇高转与设备发热

asr stt speech-to-text mlx apple-silicon local-ai privacy glm-asr offline

MLX STT 内容

手动下载zip · 2.7 kB

install.shtext/x-shellscript

请选择文件