核心用法
Local Whisper 是一款基于 Apple MLX 框架的本地语音识别技能,专为 OpenClaw 生态设计。核心功能是将 Telegram、WhatsApp 等应用的语音消息免费转录为文字,替代付费的云端 API 服务。
使用流程:
1. 通过 pip3 install 安装依赖(whisper-mlx 等)
2. 启动守护进程 python3 scripts/daemon.py,首次运行自动下载约 1.5GB 的 Whisper 模型
3. 在 OpenClaw 配置中将 tools.media.audio 指向本地转录脚本
4. 重启网关后,所有语音消息自动本地处理
守护进程提供 HTTP API(localhost:8787/transcribe),支持标准音频格式,可选 --translate 参数实现任意语言→英语翻译。
显著优点
- 零成本:彻底消除按分钟计费的 API 支出,高频使用者收益显著
- 隐私优先:音频数据永不离开本机,满足敏感场景需求
- 离线可用:无需网络连接,纯本地推理
- Apple Silicon 优化:基于 MLX 框架,M1/M2/M3/M4 芯片上推理速度快(约 1 秒/条消息)
- 生态整合:与 OpenClaw 工具链深度集成,配置即插即用
潜在缺点与局限性
- 硬件锁死:仅支持 Apple Silicon(arm64),Intel Mac 完全无法运行
- 首次成本:1.5GB 模型下载 + 10-30 秒冷启动时间,对磁盘空间和耐心有要求
- 维护负担:需手动管理 Python 环境、依赖版本,守护进程需自行配置开机自启(提供 LaunchAgent 模板)
- 功能边界:仅提供基础转录/翻译,无说话人分离、时间戳、置信度等高级功能
- 模型固定:未暴露模型选择接口,无法切换 large-v3 等不同规格模型
适合人群
- 高频接收语音消息的 Telegram/WhatsApp 重度用户
- 对隐私敏感、拒绝云端处理的个人/小型团队
- 已拥有 Apple Silicon Mac 且愿意承担技术维护成本的开发者
- 网络环境不稳定、需要离线工作能力的场景
常规风险
- 配置错误风险:JSON 配置语法错误可能导致 OpenClaw 网关启动失败
- 资源占用:常驻守护进程约占用 1.5GB+ 内存,对 8GB 内存机型压力明显
- 模型失效:MLX Whisper 版本更新可能引入 breaking change,需跟踪上游兼容性
- 无服务监控:守护进程崩溃无自动恢复机制,需依赖 launchd 或手动检查
- 安全盲区:本报告为系统占位生成,未执行实际代码审计,依赖社区信任