mlx-whisper

🎙️ Apple Silicon 本地语音转文字专家

🥥57总安装量 20评分人数 28
100% 的用户推荐

基于 Apple MLX 框架的本地语音识别方案,专为 Apple Silicon 优化,无需 API Key 即可离线完成高质量语音转录,保障数据隐私且响应迅速。

A

基本安全,请在特定环境下使用

  • 来自社区或个人来源,建议先隔离验证
  • ✅ 纯文档型资产,无可执行代码,无远程代码注入风险
  • ✅ 完全本地处理,无用户音频数据上传行为,隐私保护优秀
  • ✅ 权限申请遵循最小化原则,仅申请必要二进制文件权限
  • ⚠️ 来源为 T3 级个人开发者账号,虽内容透明但非官方维护
  • ⚠️ 首次使用需从 Hugging Face 下载模型(75MB-3GB),依赖外部模型仓库可用性

使用说明

MLX Whisper 是一款专为 Apple Silicon Mac 设计的本地语音识别工具,基于 Apple 官方 MLX 机器学习框架开发,能够在设备端完成高质量的语音转文字任务,无需依赖云端 API 或网络连接。

核心用法
该 Skill 本质上是对 mlx_whisper 命令行工具的文档封装。用户可通过简单的命令行指令完成音频转录:mlx_whisper /path/to/audio.mp3 即可将音频转换为文本。工具支持多种实用场景:使用 -f txt-f srt 参数可分别生成纯文本或字幕文件;通过 --task translate 可将非英语音频翻译为英文;--language 参数可指定源语言以提升识别准确度。模型方面提供从 tiny(75MB)到 large-v3(3GB)的多种选择,其中 whisper-large-v3-turbo(1.6GB)在速度与质量间取得最佳平衡,适合大多数日常使用。

显著优点
最突出的优势在于隐私保护与本地化处理。所有音频数据均在设备本地完成推理,不会上传至任何第三方服务器,特别适合处理敏感音频内容。针对 Apple Silicon(M1/M2/M3/M4)的专门优化使其在 Mac 上运行效率极高,充分利用了 Neural Engine 的加速能力。无需 API Key 的设计不仅降低了使用门槛,也消除了按量计费的成本焦虑。此外,作为 Apple 官方 mlx-examples 项目的组成部分,底层技术具备良好的维护保障。

潜在缺点与局限性
平台限制是最主要的门槛——该工具仅支持 Apple Silicon Mac,Intel Mac 用户无法使用。首次运行时需要从 Hugging Face 下载模型文件(75MB 至 3GB 不等),对网络环境和磁盘空间有一定要求。命令行交互方式对非技术用户不够友好,缺乏图形界面降低了易用性。模型选择方面也存在权衡:小模型速度快但准确度有限,大模型质量高但占用更多内存和存储。

适合的目标群体
核心受众为 Apple Silicon Mac 用户,特别是内容创作者(视频字幕制作)、播客制作者、研究人员(访谈转录)以及对数据隐私有严格要求的个人或企业用户。适合需要离线环境工作的场景,如保密会议室、无网络连接的户外工作环境等。

使用风险
主要风险在于依赖项管理:模型文件首次下载依赖 Hugging Face Hub 的连接稳定性,若该服务不可用则无法获取模型。大模型(如 large-v3)会占用约 3GB 磁盘空间,长期积累可能引发存储管理问题。虽然本地处理保障了隐私,但模型推理会消耗一定的 CPU/GPU 资源,在处理长音频时可能导致设备发热或耗电加快。此外,作为社区维护的 Skill(T3 来源),长期更新维护的稳定性需持续关注。

mlx-whisper 内容

手动下载zip · 1.2 kB
SKILL.mdtext/markdown
请选择文件