使用说明

核心用法

Local Whisper 是一款专为 Apple Silicon Mac 设计的本地语音转文字工具，基于 Apple 的 MLX 框架优化。核心架构采用守护进程（daemon）模式：首次启动时预加载模型至内存，后续转写请求通过本地 HTTP 接口（默认 8787 端口）实现毫秒级响应。

主要使用路径：

快速单次转写：./scripts/transcribe.sh audio.mp3
大文件高精度转写：transcribe_large.sh 使用 distil-large-v3 模型
API 集成：curl -X POST http://localhost:8787/transcribe -F "file=@audio.mp3"

支持三种模型规格（medium/distil-large-v3/large-v3），首次使用自动从 Hugging Face 下载缓存至 ~/.cache/huggingface/。

显著优点

| 维度 | 优势 |

|------|------|

| 成本 | 零 API 费用，永久免费 |

| 隐私 | 音频数据全程本地处理，不上传云端 |

| 性能 | MLX 框架针对 Apple Silicon 优化，语音消息约 2-3 秒完成 |

| 语言 | 支持 99 种语言识别，内置翻译至英语功能 |

| 集成 | 提供 HTTP API，易于嵌入自动化工作流 |

潜在缺点与局限性

硬件锁死：仅支持 Apple Silicon（M1/M2/M3），Intel Mac 无法运行
内存占用：medium 模型需约 2GB RAM，large-v3 需更高配置
首次延迟：模型自动下载可能耗时数分钟，且依赖 Hugging Face 网络连通性
维护状态：标记为 Community 维护，长期更新保障存疑
无图形界面：纯命令行工具，对非技术用户门槛较高

适合人群

高频语音转文字需求的 macOS 开发者、播客创作者、记者
对数据隐私敏感（医疗、法律、金融场景）的专业人士
希望替代 OpenAI Whisper API 以节省成本的技术用户

常规风险

供应链风险：依赖 Hugging Face 模型仓库，存在服务中断或模型下架可能
依赖管理：pip3 install 可能因 Python 版本冲突导致安装失败
守护进程稳定性：长期运行的 daemon 可能出现内存泄漏，需手动重启
输出质量波动：本地模型精度略低于云端 API，专业场景需人工校对
LaunchAgent 权限：自启动配置涉及系统级服务管理，误操作可能影响系统稳定性

安全解读

核心用法

Local Whisper 是一款专为 Apple Silicon Mac 设计的本地语音转文字工具，基于 MLX 框架优化，无需联网即可运行。核心架构包含守护进程（daemon）模式和命令行脚本两种使用方式：

守护进程模式：python3 scripts/daemon.py 预加载模型至内存，通过 HTTP 服务 127.0.0.1:8787/transcribe 提供即时转写，适合高频调用场景
命令行模式：./scripts/transcribe.sh audio.mp3 快速单次转写，自动检测守护进程状态
模型选择：内置 medium（1.4GB）、distil-large-v3（~1.5GB）、large-v3（2.9GB）三档模型，首次使用自动从 HuggingFace 下载

显著优点

1. 隐私优先：音频数据 100% 本地处理，默认不触碰任何外部 API，满足医疗、法律等敏感场景需求
2. 零运营成本：无需订阅或按量计费，一次性硬件投入即可无限使用
3. Apple Silicon 深度优化：MLX 框架充分发挥 M 系列芯片神经网络引擎，语音消息 2-3 秒完成转写
4. 多语言与翻译：支持 99 种语音识别，可直接输出英译结果
5. 开源可审计：MIT 协议，代码透明，社区持续维护

潜在缺点与局限性

硬件门槛：仅限 Apple Silicon（M1/M2/M3），Intel Mac 无法运行
内存占用：medium 模型需约 2GB RAM，large-v3 需更高配置
首次启动延迟：模型下载（1.4-2.9GB）和加载需等待数分钟
云端备选需配置：如需使用 OpenAI/Groq 云端 API 提升准确率，需手动配置 API 密钥

适合人群

对隐私极度敏感的内容创作者、记者、律师、医疗工作者
高频处理语音转文字且希望控制成本的 Apple Silicon 用户
需要离线工作环境（如航班、保密场所）的专业人士

常规风险

用户误配置云后端 API 密钥后，音频数据将上传至 OpenAI/Groq，需明确知情同意
守护进程绑定本地端口，多用户共享 Mac 时需注意权限隔离
依赖 HuggingFace 下载模型，首次使用需确保网络连接稳定

speech-to-text whisper mlx apple-silicon privacy local-ai transcription multilingual free offline

Local Whisper 内容

scripts文件夹

手动下载zip · 12.0 kB

daemon.pytext/plain

请选择文件