使用说明

核心用法

Local Whisper 是一款基于 Apple MLX 框架的本地语音识别技能，专为 OpenClaw 生态设计。核心功能是将 Telegram、WhatsApp 等应用的语音消息免费转录为文字，替代付费的云端 API 服务。

使用流程：
1. 通过 pip3 install 安装依赖（whisper-mlx 等）
2. 启动守护进程 python3 scripts/daemon.py，首次运行自动下载约 1.5GB 的 Whisper 模型
3. 在 OpenClaw 配置中将 tools.media.audio 指向本地转录脚本
4. 重启网关后，所有语音消息自动本地处理

守护进程提供 HTTP API（localhost:8787/transcribe），支持标准音频格式，可选 --translate 参数实现任意语言→英语翻译。

显著优点

零成本：彻底消除按分钟计费的 API 支出，高频使用者收益显著
隐私优先：音频数据永不离开本机，满足敏感场景需求
离线可用：无需网络连接，纯本地推理
Apple Silicon 优化：基于 MLX 框架，M1/M2/M3/M4 芯片上推理速度快（约 1 秒/条消息）
生态整合：与 OpenClaw 工具链深度集成，配置即插即用

潜在缺点与局限性

硬件锁死：仅支持 Apple Silicon（arm64），Intel Mac 完全无法运行
首次成本：1.5GB 模型下载 + 10-30 秒冷启动时间，对磁盘空间和耐心有要求
维护负担：需手动管理 Python 环境、依赖版本，守护进程需自行配置开机自启（提供 LaunchAgent 模板）
功能边界：仅提供基础转录/翻译，无说话人分离、时间戳、置信度等高级功能
模型固定：未暴露模型选择接口，无法切换 large-v3 等不同规格模型

适合人群

高频接收语音消息的 Telegram/WhatsApp 重度用户
对隐私敏感、拒绝云端处理的个人/小型团队
已拥有 Apple Silicon Mac 且愿意承担技术维护成本的开发者
网络环境不稳定、需要离线工作能力的场景

常规风险

配置错误风险：JSON 配置语法错误可能导致 OpenClaw 网关启动失败
资源占用：常驻守护进程约占用 1.5GB+ 内存，对 8GB 内存机型压力明显
模型失效：MLX Whisper 版本更新可能引入 breaking change，需跟踪上游兼容性
无服务监控：守护进程崩溃无自动恢复机制，需依赖 launchd 或手动检查
安全盲区：本报告为系统占位生成，未执行实际代码审计，依赖社区信任

speech-to-text whisper mlx privacy offline apple-silicon telegram whatsapp local-ai free

Local Whisper 内容

暂无文件树

手动下载zip · 12.0 kB

contentapplication/octet-stream

请选择文件