MLX STT

🦞 Apple Silicon 本地免费语音转文字

Apple Silicon 本地语音转文字工具,基于 MLX 框架运行 GLM-ASR-Nano 模型,无需 API 密钥,完全离线免费。

收藏
9.7k
安装
3.7k
版本
1.0.5
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

mlx-stt 是一款专为 Apple Silicon Mac 设计的本地语音转文字(STT/ASR)工具。用户通过 uv run mlx-stt.py <音频文件> 即可执行转录,首次运行会自动从 Hugging Face 下载约 2.5GB 的量化模型(mlx-community/GLM-ASR-Nano-2512-8bit)。底层依赖 MLX 框架利用 Apple Silicon 的 Neural Engine 加速推理,支持常见音频格式(需 ffmpeg 预处理)。

显著优点

1. 完全离线:无需网络连接或 API 密钥,隐私性强
2. 零成本:无按量计费,无订阅费用

3. Apple Silicon 优化:MLX 框架原生支持 M1/M2/M3/M4 系列芯片,推理效率高

4. 模型量化:8bit 量化版本平衡精度与显存占用

潜在缺点与局限性

1. 已弃用:官方明确标记为 deprecated,不再维护,推荐迁移至 mlx-audio-server
2. 硬件锁定:仅限 macOS + Apple Silicon,不支持 Intel Mac 或其他平台

3. 模型固定:当前仅支持 GLM-ASR-Nano-2512 系列,无法灵活切换其他 ASR 模型

4. 功能单一:纯命令行工具,无实时流式转录、无说话人分离、无时间戳

5. 首次下载:2.5GB 模型初次下载耗时且需 Hugging Face 访问

适合人群

  • Apple Silicon Mac 用户,重视隐私且不愿使用云端 ASR 服务
  • 开发者需批量离线转录音频文件的场景
  • 对延迟不敏感、接受命令行操作的技术用户

常规风险

  • 弃用风险:不再接收更新,未来 macOS/MLX 版本可能不兼容
  • 模型来源:依赖 Hugging Face 社区维护的量化模型,非官方渠道
  • 依赖管理:自动通过 brew 安装系统级工具,存在权限和路径冲突可能

MLX STT 内容

手动下载zip · 2.8 kB
install.shtext/x-shellscript
请选择文件