Local Whisper

🎤 Apple Silicon 本地极速语音识别

AI 工具榜 #2

基于MLX Whisper的Apple Silicon本地语音识别,免费、隐私、无API成本,支持99种语言翻译。

收藏
11.4k
安装
3k
版本
1.0.1
CLS 安全性认证2026-05-14
点击查看完整报告 >

使用说明

核心用法

Local Whisper 是一款专为 Apple Silicon Mac 设计的本地语音转文字工具,基于 Apple 的 MLX 框架优化。核心架构采用守护进程(daemon)模式:首次启动时预加载模型至内存,后续转写请求通过本地 HTTP 接口(默认 8787 端口)实现毫秒级响应。

主要使用路径:

  • 快速单次转写./scripts/transcribe.sh audio.mp3
  • 大文件高精度转写transcribe_large.sh 使用 distil-large-v3 模型
  • API 集成curl -X POST http://localhost:8787/transcribe -F "file=@audio.mp3"

支持三种模型规格(medium/distil-large-v3/large-v3),首次使用自动从 Hugging Face 下载缓存至 ~/.cache/huggingface/

显著优点

| 维度 | 优势 |
|------|------|
| 成本 | 零 API 费用,永久免费 |
| 隐私 | 音频数据全程本地处理,不上传云端 |
| 性能 | MLX 框架针对 Apple Silicon 优化,语音消息约 2-3 秒完成 |
| 语言 | 支持 99 种语言识别,内置翻译至英语功能 |
| 集成 | 提供 HTTP API,易于嵌入自动化工作流 |

潜在缺点与局限性

  • 硬件锁死:仅支持 Apple Silicon(M1/M2/M3),Intel Mac 无法运行
  • 内存占用:medium 模型需约 2GB RAM,large-v3 需更高配置
  • 首次延迟:模型自动下载可能耗时数分钟,且依赖 Hugging Face 网络连通性
  • 维护状态:标记为 Community 维护,长期更新保障存疑
  • 无图形界面:纯命令行工具,对非技术用户门槛较高

适合人群

  • 高频语音转文字需求的 macOS 开发者、播客创作者、记者
  • 对数据隐私敏感(医疗、法律、金融场景)的专业人士
  • 希望替代 OpenAI Whisper API 以节省成本的技术用户

常规风险

  • 供应链风险:依赖 Hugging Face 模型仓库,存在服务中断或模型下架可能
  • 依赖管理pip3 install 可能因 Python 版本冲突导致安装失败
  • 守护进程稳定性:长期运行的 daemon 可能出现内存泄漏,需手动重启
  • 输出质量波动:本地模型精度略低于云端 API,专业场景需人工校对
  • LaunchAgent 权限:自启动配置涉及系统级服务管理,误操作可能影响系统稳定性

安全解读

核心用法

Local Whisper 是一款专为 Apple Silicon Mac 设计的本地语音转文字工具,基于 MLX 框架优化,无需联网即可运行。核心架构包含守护进程(daemon)模式和命令行脚本两种使用方式:

  • 守护进程模式python3 scripts/daemon.py 预加载模型至内存,通过 HTTP 服务 127.0.0.1:8787/transcribe 提供即时转写,适合高频调用场景
  • 命令行模式./scripts/transcribe.sh audio.mp3 快速单次转写,自动检测守护进程状态
  • 模型选择:内置 medium(1.4GB)、distil-large-v3(~1.5GB)、large-v3(2.9GB)三档模型,首次使用自动从 HuggingFace 下载

显著优点

1. 隐私优先:音频数据 100% 本地处理,默认不触碰任何外部 API,满足医疗、法律等敏感场景需求
2. 零运营成本:无需订阅或按量计费,一次性硬件投入即可无限使用

3. Apple Silicon 深度优化:MLX 框架充分发挥 M 系列芯片神经网络引擎,语音消息 2-3 秒完成转写

4. 多语言与翻译:支持 99 种语音识别,可直接输出英译结果

5. 开源可审计:MIT 协议,代码透明,社区持续维护

潜在缺点与局限性

  • 硬件门槛:仅限 Apple Silicon(M1/M2/M3),Intel Mac 无法运行
  • 内存占用:medium 模型需约 2GB RAM,large-v3 需更高配置
  • 首次启动延迟:模型下载(1.4-2.9GB)和加载需等待数分钟
  • 云端备选需配置:如需使用 OpenAI/Groq 云端 API 提升准确率,需手动配置 API 密钥

适合人群

  • 对隐私极度敏感的内容创作者、记者、律师、医疗工作者
  • 高频处理语音转文字且希望控制成本的 Apple Silicon 用户
  • 需要离线工作环境(如航班、保密场所)的专业人士

常规风险

  • 用户误配置云后端 API 密钥后,音频数据将上传至 OpenAI/Groq,需明确知情同意
  • 守护进程绑定本地端口,多用户共享 Mac 时需注意权限隔离
  • 依赖 HuggingFace 下载模型,首次使用需确保网络连接稳定

Local Whisper 内容

scripts文件夹
手动下载zip · 12.0 kB
daemon.pytext/plain
请选择文件