使用说明

核心用法

whisper-mlx-local 是一款专为 macOS Apple Silicon 设备设计的本地语音转文字技能。用户通过安装 Python 依赖并启动本地守护进程（daemon），即可在 localhost:8787 提供 HTTP API 服务。该技能通过 OpenClaw 配置集成到 Telegram、WhatsApp 等即时通讯工具的工作流中，自动将接收到的语音消息转录为文本。首次运行需下载约 1.5GB 的 Whisper 模型，后续转录速度可达约 1 秒/条。支持多语言识别及英译功能，完全离线运行。

显著优点

零成本运营：彻底消除 OpenAI Whisper（$0.006/分钟）、Groq（$0.001/分钟）等商业 API 的持续费用，适合高频语音处理场景。隐私优先：音频数据全程本地处理，不上传任何第三方服务器，满足敏感场景需求。性能优异：基于 Apple MLX 框架深度优化，在 M1/M2/M3/M4 芯片上实现高效推理。生态兼容：通过标准 HTTP 接口与 OpenClaw 网关无缝对接，支持 Telegram、WhatsApp 等多平台语音消息自动化处理。开源透明：MIT 许可证，代码完全公开可审计。

潜在缺点与局限性

硬件门槛严格：仅限 macOS Apple Silicon 设备，Intel Mac 及 Windows/Linux 用户无法使用。首次配置较重：1.5GB 模型下载与内存加载（10-30 秒冷启动）对网络与耐心有要求。功能边界清晰：专注语音转文字，无说话人分离、情感分析等高级功能。维护依赖社区：非官方团队维护，长期更新与技术支持存在不确定性。多后端复杂性：虽支持 OpenAI/Groq 作为备选，但切换后丧失本地隐私优势。

适合的目标群体

高频处理 Telegram/WhatsApp 语音消息的 macOS 用户
对数据隐私有严格要求的内容创作者、记者、研究人员
希望消除 API 订阅成本的个人开发者与小团队
已部署 OpenClaw 生态、追求工作流自动化的效率用户

使用风险

性能波动：首条转录延迟显著，大文件或长语音可能触发 60 秒超时。依赖管理：Python 环境与多库依赖（mlx-whisper、faster-whisper 等）可能引发版本冲突。模型存储：1.5GB 模型持续占用磁盘空间。后端误配：配置不当可能导致音频意外发送至 OpenAI/Groq API，破坏隐私预期。进程稳定性：daemon 需手动或配置 LaunchAgent 保活，异常退出将中断服务。

安全解读

核心用法

whisper-mlx-local 是一款专为 Apple Silicon Mac 设计的本地语音转文字工具，通过 OpenClaw 平台为 Telegram、WhatsApp 等应用提供免费的语音消息转录服务。

安装与启动：
1. 安装依赖：pip3 install -r requirements.txt
2. 启动守护进程：python3 scripts/daemon.py
3. 配置 OpenClaw：tools.media.audio 指向本地转录脚本
4. 重启网关生效

技术架构：

基于 Apple 的 MLX 框架，利用 M1/M2/M3/M4 神经引擎加速
本地 HTTP 服务运行在 localhost:8787
支持多后端切换（MLX本地 / OpenAI API / Groq API / faster-whisper CPU）

扩展功能：

支持任意语言→英语翻译（--translate 参数）
可配置开机自启动（LaunchAgent）
提供标准 REST API 供第三方调用

---

显著优点

| 维度 | 优势 |

|------|------|

| **成本** | 完全免费，无 API 调用费用，替代 $0.001-0.01/分钟的云服务 |

| **隐私** | 音频数据永不离开设备，符合 GDPR 数据最小化原则 |

| **速度** | 首次加载后约 1 秒/条消息，Apple Silicon 专属优化 |

| **离线能力** | 无需网络连接即可工作，适合敏感场景 |

| **集成度** | 无缝对接 OpenClaw 生态，自动处理 Telegram/WhatsApp 语音 |

| **多语言** | 自动语言检测 + 翻译功能，覆盖全球主要语种 |

---

潜在缺点与局限性

| 限制 | 说明 |

|------|------|

| **硬件门槛** | 仅限 Apple Silicon（M1/M2/M3/M4），Intel Mac 不支持 |

| **首次成本** | 需下载 ~1.5GB 模型，首次转录需 10-30 秒预热 |

| **内存占用** | 模型常驻内存，对 8GB 内存 Mac 可能吃力 |

| **精度权衡** | 本地模型精度略低于 OpenAI 官方 Whisper API |

| **维护责任** | 社区项目（T2 来源），无商业 SLA 保障 |

---

适合人群

高频语音消息用户：每天处理 10+ 条 Telegram/WhatsApp 语音，月省 $10-50 API 费用
隐私敏感用户：律师、记者、企业高管等不愿音频数据上云的人群
Apple Silicon 机主：已持有 M 系列 Mac，希望发挥 NPU 算力
离线工作者：经常无网络或网络不稳定环境的用户
开源偏好者：倾向自托管、可控的技术方案

---

常规风险

中等风险（需关注）：

配置不当可能意外使用 OpenAI/Groq 云端后端，导致音频外传和费用产生
环境变量中的 API 密钥若权限设置不当，存在泄露风险

低风险：

极端情况下（进程强制终止）可能残留 /tmp 临时音频文件
社区维护项目，更新频率和长期支持存在不确定性

安全建议：
1. 强制使用 CLAWD_WHISPER_BACKEND=mlx 环境变量锁定本地模式
2. 定期清理 /tmp/tmp*.wav 临时文件
3. 使用 lsof -i :8787 监控服务端口访问

content-media productivity automation macos privacy ai-ml api

whisper-mlx-local 内容

scripts文件夹

手动下载zip · 12.0 kB

daemon.pytext/plain

请选择文件