tg-voice-whisper 是一款专注于隐私保护的本地化语音转录工具,专为处理 Telegram 语音消息场景设计。该技能通过集成 OpenAI Whisper 的 tiny 模型,实现了完全离线的语音转文字功能,无需任何 API 密钥或外部网络请求,确保敏感语音数据不会离开本地服务器。
核心用法上,该系统采用文件监听机制,当检测到 /root/.openclaw/media/inbound/ 目录下的 .ogg 格式语音文件时,自动调用本地 Whisper 模型进行转录。用户可选择通过子代理或定时任务(cron)实现实时监听,转录完成后自动将文本内容回复至原对话,并立即执行文件清理操作。首次运行需下载约 72MB 的模型文件(耗时约 15 秒),后续转录在 1vCPU/4GB 内存配置下可实现 1 秒内完成。
显著优点包括:极致的隐私保护(本地处理、自动删档)、零 API 成本(完全离线运行)、低资源占用(tiny 模型适合边缘设备),以及对俄语和英语的良好支持。自动清理机制确保敏感语音内容不会长期驻留磁盘,特别适合对数据主权要求严格的场景。
然而,该技能也存在明显局限。Tiny 模型的转录准确率约为 85-95%,在嘈杂环境或方言场景下可能需要升级为 base/small 模型。安全性方面,安装脚本使用了 --break-system-packages 标志,可能破坏系统 Python 环境隔离;输入文件路径缺乏严格验证,存在潜在的路径遍历风险。此外,作为 T3 级社区来源项目,长期维护和技术支持存在不确定性。
适合目标群体包括:注重隐私的 Telegram 个人用户、需要在离线环境处理语音消息的开发者、以及对数据不出本地有强制要求的企业场景。不推荐用于高安全要求的多租户环境或生产关键系统。
使用风险方面,除上述 Python 环境破坏风险外,还需注意依赖项(ffmpeg、whisper 二进制文件)的来源可信度,建议从官方渠道验证。模型下载虽来自 OpenAI 官方 CDN,但仍建议在首次运行时监控网络流量。总体而言,这是一款在隐私保护与功能实用性之间取得平衡的轻量级工具,适合技术能力较强的个人用户在可控环境中部署使用。