核心用法
mlx-stt 是一款专为 Apple Silicon Mac 设计的本地语音转文字(STT/ASR)工具。用户通过简单的命令行即可将音频文件转录为文本,所有处理均在本地完成,无需依赖云服务或外部 API。
典型工作流程:
1. 运行安装脚本自动配置依赖(ffmpeg、uv、mlx_audio)
2. 执行 uv run mlx-stt.py <音频文件路径>
3. 转录结果直接输出至终端标准输出
显著优点
- 完全本地化:基于 Apple MLX 框架,利用 Neural Engine 加速,数据不出设备
- 零成本运行:无需 API 密钥、订阅费用或按量计费
- 隐私优先:音频文件仅在本地处理,适合敏感内容转录
- 开箱即用:自动通过 Homebrew 安装缺失依赖,降低配置门槛
- 模型优势:采用 GLM-ASR-Nano-2512 系列模型,在准确率和速度间取得平衡
潜在缺点与局限性
- 硬件限制:仅限 Apple Silicon Mac(M1/M2/M3/M4 系列),Intel Mac 无法运行
- 平台绑定:macOS 专属,不支持 Windows 或 Linux
- 模型选择有限:目前仅支持 GLM-ASR-Nano 系列,无法灵活切换其他 ASR 模型
- 命令行界面:无图形界面,对非技术用户不够友好
- 功能较基础:缺乏实时流式识别、说话人分离、时间戳对齐等高级功能
适合人群
- 注重隐私的播客创作者、记者、研究人员
- 需要将会议录音转文字的商业用户
- Apple Silicon Mac 用户寻求免费离线 ASR 方案
- 对命令行操作有一定基础的技术用户
常规风险
- 模型准确性:ASR 模型对口音、专业术语、多说话人场景的识别可能存在误差
- 输出未保存:默认仅输出到 stdout,需手动重定向保存结果
- 依赖维护:Homebrew 和 Python 环境的版本变动可能导致兼容性问题
- 长音频处理:大文件转录可能占用较多内存和计算资源,影响系统响应