使用说明

核心用法

mlx-stt 是一款专为 Apple Silicon Mac 设计的本地语音转文字（STT/ASR）工具。用户通过 uv run mlx-stt.py <音频文件> 即可执行转录，首次运行会自动从 Hugging Face 下载约 2.5GB 的量化模型（mlx-community/GLM-ASR-Nano-2512-8bit）。底层依赖 MLX 框架利用 Apple Silicon 的 Neural Engine 加速推理，支持常见音频格式（需 ffmpeg 预处理）。

显著优点

1. 完全离线：无需网络连接或 API 密钥，隐私性强
2. 零成本：无按量计费，无订阅费用
3. Apple Silicon 优化：MLX 框架原生支持 M1/M2/M3/M4 系列芯片，推理效率高
4. 模型量化：8bit 量化版本平衡精度与显存占用

潜在缺点与局限性

1. 已弃用：官方明确标记为 deprecated，不再维护，推荐迁移至 mlx-audio-server
2. 硬件锁定：仅限 macOS + Apple Silicon，不支持 Intel Mac 或其他平台
3. 模型固定：当前仅支持 GLM-ASR-Nano-2512 系列，无法灵活切换其他 ASR 模型
4. 功能单一：纯命令行工具，无实时流式转录、无说话人分离、无时间戳
5. 首次下载：2.5GB 模型初次下载耗时且需 Hugging Face 访问

适合人群

Apple Silicon Mac 用户，重视隐私且不愿使用云端 ASR 服务
开发者需批量离线转录音频文件的场景
对延迟不敏感、接受命令行操作的技术用户

常规风险

弃用风险：不再接收更新，未来 macOS/MLX 版本可能不兼容
模型来源：依赖 Hugging Face 社区维护的量化模型，非官方渠道
依赖管理：自动通过 brew 安装系统级工具，存在权限和路径冲突可能

asr stt speech-to-text mlx apple-silicon offline deprecated glm-asr local-ai

MLX STT 内容

手动下载zip · 2.8 kB

install.shtext/x-shellscript

请选择文件