核心用法
MLX STT 是一款专为 Apple Silicon 设计的本地语音转文字工具,通过 MLX 框架运行 GLM-ASR-Nano-2512-8bit 模型实现离线 ASR。用户只需执行 uv run mlx-stt.py <音频路径> 即可完成转录,首次运行自动从 Hugging Face 拉取约 2.5GB 模型文件。
显著优点
1. 完全本地化:无需网络 API、无需订阅费用、无隐私外泄风险
2. Apple Silicon 深度优化:基于 Apple 原生 MLX 框架,充分利用 Neural Engine
3. 模型轻量化:8-bit 量化后仅 2.5GB,在消费级 Mac 上可流畅运行
4. 零配置门槛:通过 brew 自动管理 ffmpeg、uv 等依赖
5. GLM-ASR 背书:智谱 AI 开源模型,中文场景表现优异
潜在局限
- 平台锁定:仅限 macOS + Apple Silicon(M1/M2/M3/M4)
- 首冷启动:初次下载模型耗时较长
- 无实时流式:目前为文件批处理模式,非实时麦克风输入
- 英文支持待验证:GLM-ASR 系列以中文优化为主
适合人群
- 重视隐私的 Mac 用户(律师、医生、记者)
- 需离线处理敏感音频的企业内网环境
- 中文语音转录需求为主的创作者
- 希望避免 API 订阅成本的个人开发者
常规风险
- 模型文件来源为 Hugging Face 社区频道,非官方 mlx-community 主仓
- 依赖 uv 包管理器的供应链安全
- 长时间音频转录可能导致风扇高转与设备发热