MLX STT

🎙️ Apple Silicon 本地语音转文字

基于 Apple Silicon 本地运行的免费语音转文字工具,使用 GLM-ASR-Nano 模型,无需 API 密钥或联网服务器。

收藏
16.3k
安装
3.7k
版本
1.0.3
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

mlx-stt 是一款专为 Apple Silicon Mac 设计的本地语音转文字(STT/ASR)工具。用户通过简单的命令行即可将音频文件转录为文本,所有处理均在本地完成,无需依赖云服务或外部 API。

典型工作流程:
1. 运行安装脚本自动配置依赖(ffmpeguvmlx_audio

2. 执行 uv run mlx-stt.py <音频文件路径>

3. 转录结果直接输出至终端标准输出

显著优点

  • 完全本地化:基于 Apple MLX 框架,利用 Neural Engine 加速,数据不出设备
  • 零成本运行:无需 API 密钥、订阅费用或按量计费
  • 隐私优先:音频文件仅在本地处理,适合敏感内容转录
  • 开箱即用:自动通过 Homebrew 安装缺失依赖,降低配置门槛
  • 模型优势:采用 GLM-ASR-Nano-2512 系列模型,在准确率和速度间取得平衡

潜在缺点与局限性

  • 硬件限制:仅限 Apple Silicon Mac(M1/M2/M3/M4 系列),Intel Mac 无法运行
  • 平台绑定:macOS 专属,不支持 Windows 或 Linux
  • 模型选择有限:目前仅支持 GLM-ASR-Nano 系列,无法灵活切换其他 ASR 模型
  • 命令行界面:无图形界面,对非技术用户不够友好
  • 功能较基础:缺乏实时流式识别、说话人分离、时间戳对齐等高级功能

适合人群

  • 注重隐私的播客创作者、记者、研究人员
  • 需要将会议录音转文字的商业用户
  • Apple Silicon Mac 用户寻求免费离线 ASR 方案
  • 对命令行操作有一定基础的技术用户

常规风险

  • 模型准确性:ASR 模型对口音、专业术语、多说话人场景的识别可能存在误差
  • 输出未保存:默认仅输出到 stdout,需手动重定向保存结果
  • 依赖维护:Homebrew 和 Python 环境的版本变动可能导致兼容性问题
  • 长音频处理:大文件转录可能占用较多内存和计算资源,影响系统响应

MLX STT 内容

手动下载zip · 2.6 kB
install.shtext/x-shellscript
请选择文件