Local Whisper

🎤 Mac 本地语音转文字,永久免费

Apple Silicon 本地运行 MLX Whisper 语音转文字,零成本、全隐私保护,无需 API 密钥,支持 Telegram/WhatsApp 语音消息转录。

收藏
6.8k
安装
3k
版本
1.5.0
CLS 安全性认证2026-05-11
点击查看完整报告 >

使用说明

核心用法

Local Whisper 是一款基于 Apple MLX 框架的本地语音识别技能,专为 OpenClaw 生态设计。核心功能是将 Telegram、WhatsApp 等应用的语音消息免费转录为文字,替代付费的云端 API 服务。

使用流程
1. 通过 pip3 install 安装依赖(whisper-mlx 等)

2. 启动守护进程 python3 scripts/daemon.py,首次运行自动下载约 1.5GB 的 Whisper 模型

3. 在 OpenClaw 配置中将 tools.media.audio 指向本地转录脚本

4. 重启网关后,所有语音消息自动本地处理

守护进程提供 HTTP API(localhost:8787/transcribe),支持标准音频格式,可选 --translate 参数实现任意语言→英语翻译。

显著优点

  • 零成本:彻底消除按分钟计费的 API 支出,高频使用者收益显著
  • 隐私优先:音频数据永不离开本机,满足敏感场景需求
  • 离线可用:无需网络连接,纯本地推理
  • Apple Silicon 优化:基于 MLX 框架,M1/M2/M3/M4 芯片上推理速度快(约 1 秒/条消息)
  • 生态整合:与 OpenClaw 工具链深度集成,配置即插即用

潜在缺点与局限性

  • 硬件锁死:仅支持 Apple Silicon(arm64),Intel Mac 完全无法运行
  • 首次成本:1.5GB 模型下载 + 10-30 秒冷启动时间,对磁盘空间和耐心有要求
  • 维护负担:需手动管理 Python 环境、依赖版本,守护进程需自行配置开机自启(提供 LaunchAgent 模板)
  • 功能边界:仅提供基础转录/翻译,无说话人分离、时间戳、置信度等高级功能
  • 模型固定:未暴露模型选择接口,无法切换 large-v3 等不同规格模型

适合人群

  • 高频接收语音消息的 Telegram/WhatsApp 重度用户
  • 对隐私敏感、拒绝云端处理的个人/小型团队
  • 已拥有 Apple Silicon Mac 且愿意承担技术维护成本的开发者
  • 网络环境不稳定、需要离线工作能力的场景

常规风险

  • 配置错误风险:JSON 配置语法错误可能导致 OpenClaw 网关启动失败
  • 资源占用:常驻守护进程约占用 1.5GB+ 内存,对 8GB 内存机型压力明显
  • 模型失效:MLX Whisper 版本更新可能引入 breaking change,需跟踪上游兼容性
  • 无服务监控:守护进程崩溃无自动恢复机制,需依赖 launchd 或手动检查
  • 安全盲区:本报告为系统占位生成,未执行实际代码审计,依赖社区信任

安全解读

核心用法

whisper-mlx-local 是基于 Apple MLX 框架的本地化 Whisper 语音转文字方案,专为 OpenClaw 用户设计。通过替换 tools.media.audio 配置,可将 Telegram、WhatsApp 等平台的语音消息转录从付费云端 API 切换为完全免费的本地处理。

部署流程简洁:安装 Python 依赖后启动本地 Daemon(首次下载约 1.5GB 模型),随后配置 OpenClaw 指向本地脚本即可。支持 REST API (localhost:8787/transcribe) 和命令行两种调用方式,并内置多语言翻译功能。

显著优点

| 维度 | 优势 |
|------|------|
| **成本** | 永久免费,无 API 调用费用 |
| **隐私** | 音频数据完全本地处理,零外泄风险 |
| **性能** | Apple Silicon 神经引擎加速,约 1 秒/条消息 |
| **离线** | 无需网络连接即可转录 |
| **灵活** | 支持本地/云端/OpenAI/Groq 多后端切换 |

潜在局限

  • 硬件门槛:仅限 Apple Silicon(M1/M2/M3/M4),Intel Mac 无法运行
  • 首次成本:模型下载约 1.5GB,冷启动加载需 10-30 秒
  • 功能边界:不支持实时流式转录,仅适合离线文件处理
  • 维护状态:社区个人开发者维护,长期更新稳定性存疑

适合人群

  • 高频接收语音消息的 Telegram/WhatsApp 重度用户
  • 对隐私敏感、拒绝云端音频处理的个人
  • 希望彻底消除 API 成本的 Apple Silicon 用户
  • 需要离线工作环境的专业人士

常规风险

1. 云端回退陷阱:配置不当可能意外将音频发送至 OpenAI/Groq 服务器,需确认环境变量未设置 OPENAI_API_KEY/GROQ_API_KEY 以强制纯本地模式
2. 路径遍历隐患:Daemon 文件路径验证不足,避免暴露于不可信输入源

3. 临时文件残留:极端情况下可能遗留音频片段于 /tmp,建议定期清理

4. 供应链依赖:依赖 MLX 等较新框架,版本兼容性需持续关注

Local Whisper 内容

scripts文件夹
手动下载zip · 12.0 kB
daemon.pytext/plain
请选择文件