tg-voice-whisper

🎙️ 隐私安全的本地语音转录专家

基于 OpenAI Whisper 的本地化语音转录方案,零上传零泄露,自动清理文件保障隐私,专为 Telegram 语音消息场景优化。

收藏
9.7k
安装
2.8k
版本
v1.0.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

tg-voice-whisper 是一款专注于隐私保护的本地化语音转录工具,专为处理 Telegram 语音消息场景设计。该技能通过集成 OpenAI Whisper 的 tiny 模型,实现了完全离线的语音转文字功能,无需任何 API 密钥或外部网络请求,确保敏感语音数据不会离开本地服务器。

核心用法上,该系统采用文件监听机制,当检测到 /root/.openclaw/media/inbound/ 目录下的 .ogg 格式语音文件时,自动调用本地 Whisper 模型进行转录。用户可选择通过子代理或定时任务(cron)实现实时监听,转录完成后自动将文本内容回复至原对话,并立即执行文件清理操作。首次运行需下载约 72MB 的模型文件(耗时约 15 秒),后续转录在 1vCPU/4GB 内存配置下可实现 1 秒内完成。

显著优点包括:极致的隐私保护(本地处理、自动删档)、零 API 成本(完全离线运行)、低资源占用(tiny 模型适合边缘设备),以及对俄语和英语的良好支持。自动清理机制确保敏感语音内容不会长期驻留磁盘,特别适合对数据主权要求严格的场景。

然而,该技能也存在明显局限。Tiny 模型的转录准确率约为 85-95%,在嘈杂环境或方言场景下可能需要升级为 base/small 模型。安全性方面,安装脚本使用了 --break-system-packages 标志,可能破坏系统 Python 环境隔离;输入文件路径缺乏严格验证,存在潜在的路径遍历风险。此外,作为 T3 级社区来源项目,长期维护和技术支持存在不确定性。

适合目标群体包括:注重隐私的 Telegram 个人用户、需要在离线环境处理语音消息的开发者、以及对数据不出本地有强制要求的企业场景。不推荐用于高安全要求的多租户环境或生产关键系统。

使用风险方面,除上述 Python 环境破坏风险外,还需注意依赖项(ffmpeg、whisper 二进制文件)的来源可信度,建议从官方渠道验证。模型下载虽来自 OpenAI 官方 CDN,但仍建议在首次运行时监控网络流量。总体而言,这是一款在隐私保护与功能实用性之间取得平衡的轻量级工具,适合技术能力较强的个人用户在可控环境中部署使用。

安全解读

核心用法

tg-voice-whisper 是一款专为 Telegram 场景设计的本地语音转录工具,基于 OpenAI Whisper tiny 模型实现完全离线的俄语/英语语音转文字功能。当语音消息(.ogg Opus 格式)进入指定目录后,系统自动调用 Whisper 进行转录,并将结果以 🔊 前缀回复发送,处理完成后立即删除源文件确保隐私。

安装流程:通过 apt 安装 ffmpeg,通过 pip 安装 openai-whisper(首次运行自动下载 72MB 模型)。推荐配置 4GB 内存以保证 1vCPU 环境下 <1 秒响应速度。

运行模式

  • 手动触发:直接执行 whisper PATH --model tiny --language ru
  • 自动监听:通过子代理或 5 秒 cron 任务轮询 /root/.openclaw/media/inbound/ 目录

显著优点

1. 完全离线隐私保障:首次下载模型后零网络依赖,语音数据不出本地,转录后自动删除文件
2. 零 API 成本:无需 OpenAI API key 或任何外部服务费用

3. 响应极速:缓存模型后在 1vCPU/4GB 环境下实现亚秒级转录

4. 部署极简:纯 Markdown Skill,无复杂依赖链,支持自动后台运行

5. 语言优化:针对俄语和英语场景调优,tiny 模型可达 85-95% 识别准确率

潜在缺点与局限性

  • 来源可信度有限:T3 级个人开发者项目(drones274),无组织背书
  • 模型精度天花板:tiny 模型为 Whisper 最小版本,专业场景建议升级至 base/small
  • 安装权限激进:使用 --break-system-packages 标志可能干扰系统 Python 环境
  • 功能单一:仅支持单向语音转文字,无说话人分离、实时流式转录等进阶功能
  • 硬件门槛:4GB 内存为推荐配置,低配环境可能触发 OOM

适合人群

  • 注重隐私的 Telegram 用户,拒绝云端语音处理
  • 俄语/英语为主的轻度语音转文字需求场景
  • 已具备基础 Linux 运维能力的技术用户
  • 需要自动化处理大量语音消息的客服/社群运营场景

常规风险

  • 供应链风险:Whisper 模型首次从 OpenAI CDN 下载,建议校验文件哈希
  • 权限管理:需要 root 级文件系统访问和包管理权限
  • 误识别风险:背景噪音、口音、专业术语可能影响 tiny 模型准确度
  • 长期维护:个人项目更新频率不确定,存在潜在弃坑风险

tg-voice-whisper 内容

手动下载zip · 1.3 kB
SKILL.mdtext/markdown
请选择文件