TG Voice Whisper Transcriber

🎙️ 本地离线语音转文字,隐私零泄露

本地离线将 Telegram 语音消息转录为文字,使用 OpenAI Whisper tiny 模型,无需 API 密钥,自动删除文件保护隐私,4GB 内存即可快速运行。

收藏
15.7k
安装
3.6k
版本
1.0.0
CLS 安全性认证2026-05-14
点击查看完整报告 >

使用说明

核心用法

tg-voice-whisper 是一个本地离线语音转文字技能,专为处理 Telegram 语音消息设计。当 .ogg Opus 格式语音文件到达指定目录时,自动调用 OpenAI Whisper tiny 模型进行俄语文本转录(支持多语言),并将转录结果以消息形式回复,随后自动删除原始文件与临时文件,实现零残留。

典型工作流:
1. 语音文件进入 /root/.openclaw/media/inbound/

2. 执行 whisper PATH --model tiny --language ru --output_format txt

3. 读取转录文本并通过 message action=send 回复

4. rm PATH /tmp/whisper/* 清理文件

支持两种自动化模式:子代理轮询(每 5 秒检测新文件)或 cron 定时任务。

显著优点

  • 完全离线隐私:无需网络连接,不调用任何外部 API,不存储 API 密钥,语音数据不出本机
  • 零残留机制:转录后自动删除原始音频与临时文本文件,杜绝隐私泄露风险
  • 轻量化部署:tiny 模型仅 72MB,首次下载后缓存,后续 1vCPU/4GB 环境下 <1 秒完成转录
  • 零配置成本:无需注册账号或管理密钥,安装后即可使用
  • 多语言支持:俄语/英语效果最佳,支持 --language detect 自动检测

潜在缺点与局限性

  • 准确率限制:tiny 模型俄语识别准确率 85-95%,口音、噪音环境可能下降;追求更高精度需升级 base/small 模型(资源占用增加)
  • 硬件门槛:4GB RAM 为推荐配置,低配环境可能触发交换分区导致延迟
  • 首次冷启动:首次运行需 15 秒下载模型,体验不如已预热服务
  • 仅支持 Telegram 生态:文件路径硬编码于 OpenClaw 架构,迁移成本较高
  • 无说话人分离:无法区分对话多方,连续语音需人工分段

适合人群

  • 隐私敏感型用户:记者、律师、医疗从业者等需本地处理敏感语音
  • 俄语/英语 Telegram 重度用户:日常接收大量语音消息需快速浏览
  • 离线环境工作者:内网服务器、航空/海上等无稳定网络场景
  • 技术爱好者:希望自建 AI 工作流,避免云服务依赖

常规风险

| 风险类型 | 说明 | 缓解措施 |
|---------|------|---------|
| 模型偏见 | Whisper 可能对特定口音识别较差 | 重要内容人工复核 |
| 文件权限 | 自动删除依赖正确路径配置 | 定期检查 `/tmp/whisper` 残留 |
| 资源竞争 | 并发语音可能耗尽 RAM/CPU | 限制并发数或升级 small 模型时评估负载 |
| 转录错误 | 专业术语、人名可能错译 | 关键场景保留原始音频备查 |

总体评估:这是一个隐私优先、架构简洁的实用工具,适合作为个人或小团队 Telegram 工作流的语音处理层。对于准确率要求极高的场景,建议结合人工校验或升级模型规格。

安全解读

核心功能

tg-voice-whisper 是一款专为 Telegram 场景设计的语音转文字 Skill,利用 OpenAI Whisper 开源模型实现完全离线的语音识别。当用户收到 .ogg Opus 格式的语音消息时,系统自动调用本地 tiny 模型(72MB)进行转录,并将文字结果回复至对话中,随后立即删除临时文件,全程无云端传输、无 API 密钥存储。

显著优点

隐私极致保护:本地推理 + 自动清理,语音数据不出设备,符合 GDPR 数据最小化原则;零成本运行:无需订阅 OpenAI API,无密钥管理负担;极速响应:模型缓存后,1vCPU/4GB 配置下转录速度 <1 秒;多语言支持:俄语/英语识别准确率 85-95%,支持自动语言检测;部署灵活:支持 agent 即时调用与后台 cron 自动监听两种模式。

潜在缺点与局限性

准确率天花板tiny 模型为轻量化版本,嘈杂环境或专业术语场景下误差率上升,需升级至 base/small 模型(更大体积、更长加载);首次冷启动:约 15 秒模型下载时间,无网络环境首次使用受限;硬件门槛:4GB RAM 为推荐配置,低内存设备可能出现卡顿;语言偏向:俄语/英语优化明显,小语种或方言识别效果未经验证;来源可信度:T3 级个人开发者维护,无组织级代码审查背书。

适合人群

  • 注重隐私、拒绝云端语音处理的 Telegram 重度用户
  • 俄语/英语为主的跨境沟通场景
  • 具备基础 Linux/服务器运维能力的技术用户
  • 希望自建语音助理、降低 API 成本的个人开发者或小团队

常规风险

  • 供应链风险openai-whisperffmpeg 依赖社区维护,需关注 CVE 安全更新
  • 路径注入风险:示例命令未对输入路径做严格验证,生产环境建议添加正则过滤
  • 模型完整性:自动下载的模型文件缺乏哈希校验机制,存在理论上的中间人攻击可能
  • T3 来源限制:个人开发者账号,无企业级安全响应承诺,重大漏洞依赖社区反馈

TG Voice Whisper Transcriber 内容

手动下载zip · 1.2 kB
SKILL.mdtext/markdown
请选择文件