whisper-mlx-local

🎤 零成本本地语音转文字

基于 Apple Silicon 的本地 Whisper 语音转文字方案,零成本、全隐私保护,替代付费 API 服务。

收藏
3.8k
安装
949
版本
127.0.0
CLS 安全性认证2026-06-04
点击查看完整报告 >

使用说明

核心用法

whisper-mlx-local 是一款专为 macOS Apple Silicon 设备设计的本地语音转文字技能。用户通过安装 Python 依赖并启动本地守护进程(daemon),即可在 localhost:8787 提供 HTTP API 服务。该技能通过 OpenClaw 配置集成到 Telegram、WhatsApp 等即时通讯工具的工作流中,自动将接收到的语音消息转录为文本。首次运行需下载约 1.5GB 的 Whisper 模型,后续转录速度可达约 1 秒/条。支持多语言识别及英译功能,完全离线运行。

显著优点

零成本运营:彻底消除 OpenAI Whisper($0.006/分钟)、Groq($0.001/分钟)等商业 API 的持续费用,适合高频语音处理场景。隐私优先:音频数据全程本地处理,不上传任何第三方服务器,满足敏感场景需求。性能优异:基于 Apple MLX 框架深度优化,在 M1/M2/M3/M4 芯片上实现高效推理。生态兼容:通过标准 HTTP 接口与 OpenClaw 网关无缝对接,支持 Telegram、WhatsApp 等多平台语音消息自动化处理。开源透明:MIT 许可证,代码完全公开可审计。

潜在缺点与局限性

硬件门槛严格:仅限 macOS Apple Silicon 设备,Intel Mac 及 Windows/Linux 用户无法使用。首次配置较重:1.5GB 模型下载与内存加载(10-30 秒冷启动)对网络与耐心有要求。功能边界清晰:专注语音转文字,无说话人分离、情感分析等高级功能。维护依赖社区:非官方团队维护,长期更新与技术支持存在不确定性。多后端复杂性:虽支持 OpenAI/Groq 作为备选,但切换后丧失本地隐私优势。

适合的目标群体

  • 高频处理 Telegram/WhatsApp 语音消息的 macOS 用户
  • 对数据隐私有严格要求的内容创作者、记者、研究人员
  • 希望消除 API 订阅成本的个人开发者与小团队
  • 已部署 OpenClaw 生态、追求工作流自动化的效率用户

使用风险

性能波动:首条转录延迟显著,大文件或长语音可能触发 60 秒超时。依赖管理:Python 环境与多库依赖(mlx-whisper、faster-whisper 等)可能引发版本冲突。模型存储:1.5GB 模型持续占用磁盘空间。后端误配:配置不当可能导致音频意外发送至 OpenAI/Groq API,破坏隐私预期。进程稳定性:daemon 需手动或配置 LaunchAgent 保活,异常退出将中断服务。

安全解读

核心用法

whisper-mlx-local 是一款专为 Apple Silicon Mac 设计的本地语音转文字工具,通过 OpenClaw 平台为 Telegram、WhatsApp 等应用提供免费的语音消息转录服务。

安装与启动
1. 安装依赖:pip3 install -r requirements.txt

2. 启动守护进程:python3 scripts/daemon.py

3. 配置 OpenClaw:tools.media.audio 指向本地转录脚本

4. 重启网关生效

技术架构

  • 基于 Apple 的 MLX 框架,利用 M1/M2/M3/M4 神经引擎加速
  • 本地 HTTP 服务运行在 localhost:8787
  • 支持多后端切换(MLX本地 / OpenAI API / Groq API / faster-whisper CPU)

扩展功能

  • 支持任意语言→英语翻译(--translate 参数)
  • 可配置开机自启动(LaunchAgent)
  • 提供标准 REST API 供第三方调用

---

显著优点

| 维度 | 优势 |
|------|------|
| **成本** | 完全免费,无 API 调用费用,替代 $0.001-0.01/分钟的云服务 |
| **隐私** | 音频数据永不离开设备,符合 GDPR 数据最小化原则 |
| **速度** | 首次加载后约 1 秒/条消息,Apple Silicon 专属优化 |
| **离线能力** | 无需网络连接即可工作,适合敏感场景 |
| **集成度** | 无缝对接 OpenClaw 生态,自动处理 Telegram/WhatsApp 语音 |
| **多语言** | 自动语言检测 + 翻译功能,覆盖全球主要语种 |

---

潜在缺点与局限性

| 限制 | 说明 |
|------|------|
| **硬件门槛** | 仅限 Apple Silicon(M1/M2/M3/M4),Intel Mac 不支持 |
| **首次成本** | 需下载 ~1.5GB 模型,首次转录需 10-30 秒预热 |
| **内存占用** | 模型常驻内存,对 8GB 内存 Mac 可能吃力 |
| **精度权衡** | 本地模型精度略低于 OpenAI 官方 Whisper API |
| **维护责任** | 社区项目(T2 来源),无商业 SLA 保障 |

---

适合人群

  • 高频语音消息用户:每天处理 10+ 条 Telegram/WhatsApp 语音,月省 $10-50 API 费用
  • 隐私敏感用户:律师、记者、企业高管等不愿音频数据上云的人群
  • Apple Silicon 机主:已持有 M 系列 Mac,希望发挥 NPU 算力
  • 离线工作者:经常无网络或网络不稳定环境的用户
  • 开源偏好者:倾向自托管、可控的技术方案

---

常规风险

中等风险(需关注)

  • 配置不当可能意外使用 OpenAI/Groq 云端后端,导致音频外传和费用产生
  • 环境变量中的 API 密钥若权限设置不当,存在泄露风险

低风险

  • 极端情况下(进程强制终止)可能残留 /tmp 临时音频文件
  • 社区维护项目,更新频率和长期支持存在不确定性

安全建议
1. 强制使用 CLAWD_WHISPER_BACKEND=mlx 环境变量锁定本地模式

2. 定期清理 /tmp/tmp*.wav 临时文件

3. 使用 lsof -i :8787 监控服务端口访问

whisper-mlx-local 内容

scripts文件夹
手动下载zip · 12.0 kB
daemon.pytext/plain
请选择文件