Local Whisper

🎤 Mac 本地语音转文字,永久免费

AI 与生产力榜 #1

Apple Silicon 本地运行 MLX Whisper 语音转文字,零成本、全隐私保护,无需 API 密钥,支持 Telegram/WhatsApp 语音消息转录。

收藏
6.8k
安装
3k
版本
1.5.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

Local Whisper 是一款基于 Apple MLX 框架的本地语音识别技能,专为 OpenClaw 生态设计。核心功能是将 Telegram、WhatsApp 等应用的语音消息免费转录为文字,替代付费的云端 API 服务。

使用流程
1. 通过 pip3 install 安装依赖(whisper-mlx 等)

2. 启动守护进程 python3 scripts/daemon.py,首次运行自动下载约 1.5GB 的 Whisper 模型

3. 在 OpenClaw 配置中将 tools.media.audio 指向本地转录脚本

4. 重启网关后,所有语音消息自动本地处理

守护进程提供 HTTP API(localhost:8787/transcribe),支持标准音频格式,可选 --translate 参数实现任意语言→英语翻译。

显著优点

  • 零成本:彻底消除按分钟计费的 API 支出,高频使用者收益显著
  • 隐私优先:音频数据永不离开本机,满足敏感场景需求
  • 离线可用:无需网络连接,纯本地推理
  • Apple Silicon 优化:基于 MLX 框架,M1/M2/M3/M4 芯片上推理速度快(约 1 秒/条消息)
  • 生态整合:与 OpenClaw 工具链深度集成,配置即插即用

潜在缺点与局限性

  • 硬件锁死:仅支持 Apple Silicon(arm64),Intel Mac 完全无法运行
  • 首次成本:1.5GB 模型下载 + 10-30 秒冷启动时间,对磁盘空间和耐心有要求
  • 维护负担:需手动管理 Python 环境、依赖版本,守护进程需自行配置开机自启(提供 LaunchAgent 模板)
  • 功能边界:仅提供基础转录/翻译,无说话人分离、时间戳、置信度等高级功能
  • 模型固定:未暴露模型选择接口,无法切换 large-v3 等不同规格模型

适合人群

  • 高频接收语音消息的 Telegram/WhatsApp 重度用户
  • 对隐私敏感、拒绝云端处理的个人/小型团队
  • 已拥有 Apple Silicon Mac 且愿意承担技术维护成本的开发者
  • 网络环境不稳定、需要离线工作能力的场景

常规风险

  • 配置错误风险:JSON 配置语法错误可能导致 OpenClaw 网关启动失败
  • 资源占用:常驻守护进程约占用 1.5GB+ 内存,对 8GB 内存机型压力明显
  • 模型失效:MLX Whisper 版本更新可能引入 breaking change,需跟踪上游兼容性
  • 无服务监控:守护进程崩溃无自动恢复机制,需依赖 launchd 或手动检查
  • 安全盲区:本报告为系统占位生成,未执行实际代码审计,依赖社区信任

Local Whisper 内容

暂无文件树

手动下载zip · 12.0 kB
contentapplication/octet-stream
请选择文件