TG Voice Whisper Transcriber

🎙️ 本地离线语音转文字,隐私零泄露

本地离线将 Telegram 语音消息转录为文字,使用 OpenAI Whisper tiny 模型,无需 API 密钥,自动删除文件保护隐私,4GB 内存即可快速运行。

收藏
15.7k
安装
3.6k
版本
1.0.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

tg-voice-whisper 是一个本地离线语音转文字技能,专为处理 Telegram 语音消息设计。当 .ogg Opus 格式语音文件到达指定目录时,自动调用 OpenAI Whisper tiny 模型进行俄语文本转录(支持多语言),并将转录结果以消息形式回复,随后自动删除原始文件与临时文件,实现零残留。

典型工作流:
1. 语音文件进入 /root/.openclaw/media/inbound/

2. 执行 whisper PATH --model tiny --language ru --output_format txt

3. 读取转录文本并通过 message action=send 回复

4. rm PATH /tmp/whisper/* 清理文件

支持两种自动化模式:子代理轮询(每 5 秒检测新文件)或 cron 定时任务。

显著优点

  • 完全离线隐私:无需网络连接,不调用任何外部 API,不存储 API 密钥,语音数据不出本机
  • 零残留机制:转录后自动删除原始音频与临时文本文件,杜绝隐私泄露风险
  • 轻量化部署:tiny 模型仅 72MB,首次下载后缓存,后续 1vCPU/4GB 环境下 <1 秒完成转录
  • 零配置成本:无需注册账号或管理密钥,安装后即可使用
  • 多语言支持:俄语/英语效果最佳,支持 --language detect 自动检测

潜在缺点与局限性

  • 准确率限制:tiny 模型俄语识别准确率 85-95%,口音、噪音环境可能下降;追求更高精度需升级 base/small 模型(资源占用增加)
  • 硬件门槛:4GB RAM 为推荐配置,低配环境可能触发交换分区导致延迟
  • 首次冷启动:首次运行需 15 秒下载模型,体验不如已预热服务
  • 仅支持 Telegram 生态:文件路径硬编码于 OpenClaw 架构,迁移成本较高
  • 无说话人分离:无法区分对话多方,连续语音需人工分段

适合人群

  • 隐私敏感型用户:记者、律师、医疗从业者等需本地处理敏感语音
  • 俄语/英语 Telegram 重度用户:日常接收大量语音消息需快速浏览
  • 离线环境工作者:内网服务器、航空/海上等无稳定网络场景
  • 技术爱好者:希望自建 AI 工作流,避免云服务依赖

常规风险

| 风险类型 | 说明 | 缓解措施 |
|---------|------|---------|
| 模型偏见 | Whisper 可能对特定口音识别较差 | 重要内容人工复核 |
| 文件权限 | 自动删除依赖正确路径配置 | 定期检查 `/tmp/whisper` 残留 |
| 资源竞争 | 并发语音可能耗尽 RAM/CPU | 限制并发数或升级 small 模型时评估负载 |
| 转录错误 | 专业术语、人名可能错译 | 关键场景保留原始音频备查 |

总体评估:这是一个隐私优先、架构简洁的实用工具,适合作为个人或小团队 Telegram 工作流的语音处理层。对于准确率要求极高的场景,建议结合人工校验或升级模型规格。

TG Voice Whisper Transcriber 内容

暂无文件树

手动下载zip · 1.2 kB
contentapplication/octet-stream
请选择文件