mlx-stt

🎙️ Apple Silicon 本地语音转文字

基于 Apple MLX 的本地语音识别工具,无需 API 密钥,在 Apple Silicon Mac 上实现隐私安全的离线音频转录。

收藏
2.3k
安装
569
版本
v1.0.7
CLS 安全性认证2026-05-11
点击查看完整报告 >

使用说明

核心用法

MLX STT 是一款专为 Apple Silicon Mac 设计的本地语音识别工具。用户通过简单的命令行调用 bash mlx-stt.sh <audio_file_path> 即可将音频文件转换为文本。工具基于 Apple 的 MLX 深度学习框架,默认采用 GLM-ASR-Nano-2512 开源模型,首次运行时会自动从 Hugging Face 的 mlx-community 下载模型文件。安装脚本会自动通过 Homebrew 安装 ffmpeg、uv 等依赖,确保环境就绪。

显著优点

最大的优点是隐私安全。所有音频处理均在本地完成,无需上传至云端服务器,也不需要注册 API 密钥,彻底避免了数据泄露风险。其次是成本优势,完全免费使用开源模型,没有按量计费或订阅费用。技术层面,依托 Apple Silicon 的神经网络引擎,推理效率高且能耗低。此外,工具支持多种音频格式(通过 ffmpeg 自动转换),使用门槛极低,适合非技术用户。

潜在缺点与局限性

平台限制是首要局限,仅支持配备 Apple Silicon 的 macOS 设备,Intel Mac 和 Windows/Linux 用户无法使用。其次是首次启动成本,初次使用需下载约数百 MB 的模型文件,在网络不佳环境下体验较差。功能上目前仅为离线批处理工具,不支持实时语音识别流式传输。此外,输入验证机制较为简单,缺乏对恶意构造路径的严格检查。

适合的目标群体

特别适合对隐私极度敏感的用户,如律师、医生、记者等需要处理机密音频资料的专业人士。同时适合追求成本效益的创作者,如播客制作人、视频字幕工作者,需要批量处理音频转录且不希望支付 API 费用。也是离线环境工作者的理想选择,如在无网络或网络受限环境下需要语音转文字的用户。

使用风险

主要风险集中在输入验证不足,若提供恶意构造的文件路径(如包含 ../ 的路径遍历),可能导致未授权文件访问。依赖管理方面,安装脚本使用 --force--prerelease=allow 标志,可能引入未经充分测试的依赖版本。文件操作风险在于 rm -rf 删除临时目录时,若环境变量异常可能导致意外删除重要文件(尽管脚本使用了 set -u 提供部分保护)。此外,作为社区个人维护项目(T3 来源),长期维护稳定性和安全更新频率存在不确定性。

安全解读

核心用法

mlx-stt 是一款专为 Apple Silicon Mac 设计的本地语音转文字工具,基于 Apple 的 MLX 深度学习框架运行开源 GLM-ASR-Nano-2512 模型。用户只需运行脚本并传入音频文件路径即可完成转录,首次运行会自动下载模型(约数百 MB)。支持通过自然语言触发词如 "/mlx-stt"、"STT"、"Transcribe" 等快速调用。

显著优点

  • 完全本地处理:音频数据不上传任何服务器,符合 GDPR/CCPA 隐私合规要求
  • 零 API 成本:无需申请 API Key,无调用次数或流量限制
  • 硬件加速优化:充分利用 Apple Silicon 的 Neural Engine,推理效率高
  • 开源透明:基于 MIT 协议,代码量精简(约 120 行),可审计性强
  • 开箱即用:通过 brew + uv 自动管理依赖,安装流程简单

潜在局限

  • 平台限制:仅支持 macOS + Apple Silicon(M1/M2/M3 系列),Intel Mac 无法运行
  • 首次启动延迟:需从 Hugging Face 下载模型,首次使用体验稍慢
  • 外部依赖:依赖 brew、ffmpeg、uv 等工具链,需保持网络连接完成初始化
  • 模型选择单一:默认仅集成 GLM-ASR-Nano,多语言支持取决于该模型能力

适合人群

  • 注重隐私、不愿将语音数据上传云端的用户
  • Apple Silicon Mac 用户,希望本地运行 Whisper 类 ASR 模型
  • 开发者、播客工作者、学生等需要批量转录音频内容的场景
  • 无稳定国际网络或 API 访问受限地区的用户

常规风险

  • 供应链风险:brew/uv/PyPI 依赖需从外部源下载,建议在可信网络环境首次运行
  • 模型来源:从 Hugging Face mlx-community 下载模型,虽为官方组织但仍属第三方托管
  • 输入验证不足:当前版本未严格校验音频文件存在性及格式,可能引发运行时错误

综合评价

mlx-stt 是 Apple 生态内隐私优先型 STT 工具的优秀代表,以极低的代码复杂度实现了生产可用的本地语音转文字能力。安全审计显示其无恶意行为、无数据外泄风险,适合对隐私敏感且不介意平台锁定的用户。建议在后续版本中增强输入校验和错误处理,以提升健壮性。

mlx-stt 内容

手动下载zip · 1.8 kB
install.shtext/x-shellscript
请选择文件