核心用法
tg-voice-whisper 是一个本地离线语音转文字技能,专为处理 Telegram 语音消息设计。当 .ogg Opus 格式语音文件到达指定目录时,自动调用 OpenAI Whisper tiny 模型进行俄语文本转录(支持多语言),并将转录结果以消息形式回复,随后自动删除原始文件与临时文件,实现零残留。
典型工作流:
1. 语音文件进入 /root/.openclaw/media/inbound/
2. 执行 whisper PATH --model tiny --language ru --output_format txt
3. 读取转录文本并通过 message action=send 回复
4. rm PATH /tmp/whisper/* 清理文件
支持两种自动化模式:子代理轮询(每 5 秒检测新文件)或 cron 定时任务。
显著优点
- 完全离线隐私:无需网络连接,不调用任何外部 API,不存储 API 密钥,语音数据不出本机
- 零残留机制:转录后自动删除原始音频与临时文本文件,杜绝隐私泄露风险
- 轻量化部署:tiny 模型仅 72MB,首次下载后缓存,后续 1vCPU/4GB 环境下 <1 秒完成转录
- 零配置成本:无需注册账号或管理密钥,安装后即可使用
- 多语言支持:俄语/英语效果最佳,支持
--language detect自动检测
潜在缺点与局限性
- 准确率限制:tiny 模型俄语识别准确率 85-95%,口音、噪音环境可能下降;追求更高精度需升级 base/small 模型(资源占用增加)
- 硬件门槛:4GB RAM 为推荐配置,低配环境可能触发交换分区导致延迟
- 首次冷启动:首次运行需 15 秒下载模型,体验不如已预热服务
- 仅支持 Telegram 生态:文件路径硬编码于 OpenClaw 架构,迁移成本较高
- 无说话人分离:无法区分对话多方,连续语音需人工分段
适合人群
- 隐私敏感型用户:记者、律师、医疗从业者等需本地处理敏感语音
- 俄语/英语 Telegram 重度用户:日常接收大量语音消息需快速浏览
- 离线环境工作者:内网服务器、航空/海上等无稳定网络场景
- 技术爱好者:希望自建 AI 工作流,避免云服务依赖
常规风险
| 风险类型 | 说明 | 缓解措施 |
|---------|------|---------|
| 模型偏见 | Whisper 可能对特定口音识别较差 | 重要内容人工复核 |
| 文件权限 | 自动删除依赖正确路径配置 | 定期检查 `/tmp/whisper` 残留 |
| 资源竞争 | 并发语音可能耗尽 RAM/CPU | 限制并发数或升级 small 模型时评估负载 |
| 转录错误 | 专业术语、人名可能错译 | 关键场景保留原始音频备查 |
总体评估:这是一个隐私优先、架构简洁的实用工具,适合作为个人或小团队 Telegram 工作流的语音处理层。对于准确率要求极高的场景,建议结合人工校验或升级模型规格。