MLX STT

🦞 Apple Silicon 本地语音识别

基于 MLX 框架在 Apple Silicon Mac 上本地运行的语音识别工具,集成 GLM-ASR-Nano-2512 模型,无需 API 密钥和联网服务器。

收藏
13.9k
安装
3.7k
版本
1.0.6
CLS 安全性认证2026-05-20
点击查看完整报告 >

使用说明

核心用法

mlx-stt 是一款专为 Apple Silicon Mac 设计的本地语音识别工具,利用 Apple 的 MLX 机器学习框架实现高效推理。用户通过简单的命令行接口即可将音频文件转录为文本,首次运行会自动从 Hugging Face 下载约 2.5GB 的量化模型(GLM-ASR-Nano-2512-8bit)。

使用流程:
1. 运行安装脚本自动配置依赖(ffmpeg、uv、mlx_audio)

2. 执行 uv run mlx-stt.py <音频路径> 完成转录

3. 结果直接输出至标准输出,便于管道处理

显著优点

  • 完全本地化:无需云端服务,保护隐私数据
  • 零成本运行:无 API 调用费用,适合高频使用场景
  • Apple Silicon 优化:MLX 框架充分利用 M 系列芯片的神经网络引擎
  • 模型轻量化:8bit 量化版本仅 2.5GB,平衡精度与资源占用
  • 开箱即用:Homebrew 生态自动化依赖管理

潜在缺点与局限性

  • 平台锁定:仅限 macOS + Apple Silicon,Intel Mac 及 Windows/Linux 无法运行
  • 首次下载耗时:模型拉取依赖 Hugging Face 连接稳定性
  • 功能单一:专注语音转文字,无实时流式处理、说话人分离等高级功能
  • 中文社区模型:GLM-ASR 系列对中文优化较好,但多语言混合场景性能待验证

适合人群

  • 注重隐私的 macOS 用户(记者、律师、医疗从业者)
  • 需要批量处理音频的本地化工作者
  • Apple Silicon 设备持有者寻求替代 Whisper 的轻量方案

常规风险

  • 模型文件来源于社区托管(mlx-community),需信任 Hugging Face 分发渠道
  • 量化模型可能存在精度损失,关键场景建议人工校验
  • 依赖 Homebrew 环境,企业受管设备可能遇到权限冲突

安全解读

核心用法

mlx-stt 是一款专为 Apple Silicon Mac 设计的本地语音识别工具,基于 Apple 的 MLX 框架运行 GLM-ASR-Nano-2512 模型。用户只需提供音频文件路径即可完成转录,首次运行会自动从 Hugging Face 下载约 2.5GB 的量化模型。

安装后执行:

uv run mlx-stt.py <audio_file_path>

转录结果直接输出至 stdout,支持常见音频格式(依赖 ffmpeg 自动转换)。

显著优点

  • 完全免费零门槛:无需 API Key、无需订阅、无需联网服务器
  • 隐私优先设计:音频数据本地处理,不上传云端,符合 GDPR/CCPA 合规
  • Apple Silicon 原生优化:充分利用 M 系列芯片 NPU/GPU 加速
  • 模型轻量化:8-bit 量化版本仅 2.5GB,Nano 规格适合消费级设备
  • 极简架构:纯命令行工具,无复杂依赖链

潜在缺点与局限性

  • 平台锁定:仅支持 macOS + Apple Silicon(M1 及以上),Intel Mac 无法运行
  • 首次下载耗时:模型需从 Hugging Face 拉取,国内用户可能受网络影响
  • 依赖外部工具链:依赖 Homebrew、uv、ffmpeg,环境准备较繁琐
  • T3 来源风险:个人开发者维护,长期更新保障存疑
  • 功能单一:仅支持转录,无说话人分离、时间戳对齐等进阶功能
  • 中文优化模型:GLM-ASR 对中文效果较好,其他语言表现待验证

适合人群

  • 注重隐私、拒绝云端语音服务的 Apple Silicon 用户
  • 中文播客/视频创作者需要批量生成字幕
  • 开发者构建本地语音 Pipeline 的原型验证
  • 学术场景下的离线语音数据处理

常规风险

| 风险类别 | 等级 | 说明 |
|---------|------|------|
| 供应链安全 | 中 | 依赖 brew、uv、mlx-audio 未锁定版本 |
| 命令注入 | 中 | subprocess.run 执行 ffmpeg,需验证输入路径 |
| 来源可信度 | 中 | T3 个人开发者,建议审查源码后使用 |
| 模型下载 | 低 | 仅从 Hugging Face 官方源下载,TLS 加密传输 |

使用建议

1. 审查 install.shmlx-stt.py 源码后再执行安装
2. 对输入音频路径进行白名单验证,避免路径遍历

3. 考虑 fork 后锁定 mlx-audio 版本以确保可复现构建

4. 国内用户建议配置 Hugging Face 镜像加速模型下载

MLX STT 内容

手动下载zip · 2.7 kB
install.shtext/x-shellscript
请选择文件