核心用法
mlx-stt 是一款专为 Apple Silicon Mac 设计的本地语音识别工具,利用 Apple 的 MLX 机器学习框架实现高效推理。用户通过简单的命令行接口即可将音频文件转录为文本,首次运行会自动从 Hugging Face 下载约 2.5GB 的量化模型(GLM-ASR-Nano-2512-8bit)。
使用流程:
1. 运行安装脚本自动配置依赖(ffmpeg、uv、mlx_audio)
2. 执行 uv run mlx-stt.py <音频路径> 完成转录
3. 结果直接输出至标准输出,便于管道处理
显著优点
- 完全本地化:无需云端服务,保护隐私数据
- 零成本运行:无 API 调用费用,适合高频使用场景
- Apple Silicon 优化:MLX 框架充分利用 M 系列芯片的神经网络引擎
- 模型轻量化:8bit 量化版本仅 2.5GB,平衡精度与资源占用
- 开箱即用:Homebrew 生态自动化依赖管理
潜在缺点与局限性
- 平台锁定:仅限 macOS + Apple Silicon,Intel Mac 及 Windows/Linux 无法运行
- 首次下载耗时:模型拉取依赖 Hugging Face 连接稳定性
- 功能单一:专注语音转文字,无实时流式处理、说话人分离等高级功能
- 中文社区模型:GLM-ASR 系列对中文优化较好,但多语言混合场景性能待验证
适合人群
- 注重隐私的 macOS 用户(记者、律师、医疗从业者)
- 需要批量处理音频的本地化工作者
- Apple Silicon 设备持有者寻求替代 Whisper 的轻量方案
常规风险
- 模型文件来源于社区托管(mlx-community),需信任 Hugging Face 分发渠道
- 量化模型可能存在精度损失,关键场景建议人工校验
- 依赖 Homebrew 环境,企业受管设备可能遇到权限冲突