MLX STT

🦞 Apple Silicon 本地离线语音转写

基于 Apple MLX 框架的本地语音转文字工具,无需 API 密钥,使用 GLM-ASR-Nano-2512 模型,2.5GB 体积实现高精度离线转录。

收藏
9.5k
安装
3.7k
版本
1.0.4
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

MLX STT 是一款专为 Apple Silicon 设计的本地语音转文字工具,通过 MLX 框架运行 GLM-ASR-Nano-2512-8bit 模型实现离线 ASR。用户只需执行 uv run mlx-stt.py <音频路径> 即可完成转录,首次运行自动从 Hugging Face 拉取约 2.5GB 模型文件。

显著优点

1. 完全本地化:无需网络 API、无需订阅费用、无隐私外泄风险
2. Apple Silicon 深度优化:基于 Apple 原生 MLX 框架,充分利用 Neural Engine

3. 模型轻量化:8-bit 量化后仅 2.5GB,在消费级 Mac 上可流畅运行

4. 零配置门槛:通过 brew 自动管理 ffmpeg、uv 等依赖

5. GLM-ASR 背书:智谱 AI 开源模型,中文场景表现优异

潜在局限

  • 平台锁定:仅限 macOS + Apple Silicon(M1/M2/M3/M4)
  • 首冷启动:初次下载模型耗时较长
  • 无实时流式:目前为文件批处理模式,非实时麦克风输入
  • 英文支持待验证:GLM-ASR 系列以中文优化为主

适合人群

  • 重视隐私的 Mac 用户(律师、医生、记者)
  • 需离线处理敏感音频的企业内网环境
  • 中文语音转录需求为主的创作者
  • 希望避免 API 订阅成本的个人开发者

常规风险

  • 模型文件来源为 Hugging Face 社区频道,非官方 mlx-community 主仓
  • 依赖 uv 包管理器的供应链安全
  • 长时间音频转录可能导致风扇高转与设备发热

MLX STT 内容

手动下载zip · 2.7 kB
install.shtext/x-shellscript
请选择文件