skills/guoqiao/MLX STT

MLX STT

🎙️ Apple Silicon 本地语音转文字

基于 Apple Silicon 本地运行的免费语音转文字工具，使用 GLM-ASR-Nano 模型，无需 API 密钥或联网服务器。

收藏

16.3k

安装

3.7k

版本

1.0.3

CLS 安全扫描中

预计需要 3 分钟...

使用说明

核心用法

mlx-stt 是一款专为 Apple Silicon Mac 设计的本地语音转文字（STT/ASR）工具。用户通过简单的命令行即可将音频文件转录为文本，所有处理均在本地完成，无需依赖云服务或外部 API。

典型工作流程：
1. 运行安装脚本自动配置依赖（ffmpeg、uv、mlx_audio）
2. 执行 uv run mlx-stt.py <音频文件路径>
3. 转录结果直接输出至终端标准输出

显著优点

完全本地化：基于 Apple MLX 框架，利用 Neural Engine 加速，数据不出设备
零成本运行：无需 API 密钥、订阅费用或按量计费
隐私优先：音频文件仅在本地处理，适合敏感内容转录
开箱即用：自动通过 Homebrew 安装缺失依赖，降低配置门槛
模型优势：采用 GLM-ASR-Nano-2512 系列模型，在准确率和速度间取得平衡

潜在缺点与局限性

硬件限制：仅限 Apple Silicon Mac（M1/M2/M3/M4 系列），Intel Mac 无法运行
平台绑定：macOS 专属，不支持 Windows 或 Linux
模型选择有限：目前仅支持 GLM-ASR-Nano 系列，无法灵活切换其他 ASR 模型
命令行界面：无图形界面，对非技术用户不够友好
功能较基础：缺乏实时流式识别、说话人分离、时间戳对齐等高级功能

适合人群

注重隐私的播客创作者、记者、研究人员
需要将会议录音转文字的商业用户
Apple Silicon Mac 用户寻求免费离线 ASR 方案
对命令行操作有一定基础的技术用户

常规风险

模型准确性：ASR 模型对口音、专业术语、多说话人场景的识别可能存在误差
输出未保存：默认仅输出到 stdout，需手动重定向保存结果
依赖维护：Homebrew 和 Python 环境的版本变动可能导致兼容性问题
长音频处理：大文件转录可能占用较多内存和计算资源，影响系统响应

speech-to-text asr apple-silicon mlx local-ai privacy macOS audio-processing offline glm-asr

MLX STT 内容

手动下载zip · 2.6 kB

install.shtext/x-shellscript

请选择文件