parakeet-mlx

🦜 Apple Silicon 本地语音转写专家

🥥58总安装量 14评分人数 14
100% 的用户推荐

基于 Apple Silicon MLX 框架的本地语音识别工具,无需 API Key 即可离线转录音频,确保敏感语音数据完全本地处理,保护用户隐私安全。

A

基本安全,请在特定环境下使用

  • 来自社区或个人来源,建议先隔离验证
  • ✅ 纯文档型资产,无可执行代码或动态加载逻辑,无注入漏洞风险
  • ✅ 本地处理架构,音频数据不上传云端,隐私保护完善,适合敏感内容
  • ⚠️ 依赖外部 CLI 工具(parakeet-mlx)和 ffmpeg,需通过 uv 包管理器手动安装
  • ⚠️ 首次运行自动从 Hugging Face 下载模型至本地缓存,需确保磁盘空间和网络稳定
  • ⚠️ 来源为个人开发者(T3),虽当前版本安全但需关注后续维护更新及供应链安全

使用说明

Parakeet MLX 是一款专为 Apple Silicon Mac 设计的本地语音识别技能,通过调用 parakeet-mlx CLI 工具实现完全离线的语音转文字(ASR)功能。用户只需通过 uv tool install 安装 CLI 工具,即可使用 parakeet-mlx /path/audio.mp3 等命令将音频文件转换为 txt、srt、vtt、json 等多种格式,无需配置任何 API Key,全程在本地 MLX 框架上运行。

该技能的核心优势在于极致的隐私保护和零使用成本。由于采用 Apple Silicon 专用的 MLX 深度学习框架,所有语音数据均在本地处理,不会上传至云端,特别适合处理敏感音频内容的场景。同时,作为纯文档型技能,其本身不含任何可执行代码,仅提供标准化的 CLI 调用指南,安全透明。支持的输出格式丰富,包括带时间轴的 srt/vtt 和包含置信度评分的 json,满足从简单笔记到专业字幕制作的多样化需求,且支持批量处理多个文件。

然而,该技能存在明显的局限性。首先,它仅兼容 Apple Silicon 芯片(M1/M2/M3/M4),Intel Mac 用户无法使用,设备适配范围受限。其次,首次运行时需要从 Hugging Face 下载约数百 MB 的模型文件到 ~/.cache/huggingface 目录,对网络环境和磁盘空间有一定要求,且需要用户预先安装 ffmpeg 音频处理库。此外,作为个人开发者(T3 来源)维护的开源项目,长期更新频率、功能迭代速度和技术支持稳定性均不如企业级产品可靠。

该技能最适合注重隐私安全的 Apple Silicon Mac 用户、需要离线批量处理音频的内容创作者、以及处理机密会议记录或访谈内容的商务人士和研究人员。对于需要实时低延迟转写、特定小语种支持或企业级 SLA 保障的专业场景,建议评估模型性能限制后再做选择,或考虑云端 API 方案作为补充。

使用风险方面,主要涉及外部依赖项的安装管理和本地资源消耗。虽然 parakeet-mlx 通过 uv 包管理器安装来源可控,但用户仍需确保从官方 PyPI 渠道获取,避免供应链攻击。模型下载过程虽来自可信的 Hugging Face 仓库,但大文件下载可能受网络环境影响。此外,本地神经网络推理会显著占用 CPU/GPU 资源,处理长音频时需注意设备散热、电量消耗和内存占用情况,建议在接入电源环境下使用。

parakeet-mlx 内容

手动下载zip · 1.1 kB
SKILL.mdtext/markdown
请选择文件