使用说明

核心用法

tg-voice-whisper 是一个本地离线语音转文字技能，专为处理 Telegram 语音消息设计。当 .ogg Opus 格式语音文件到达指定目录时，自动调用 OpenAI Whisper tiny 模型进行俄语文本转录（支持多语言），并将转录结果以消息形式回复，随后自动删除原始文件与临时文件，实现零残留。

典型工作流：
1. 语音文件进入 /root/.openclaw/media/inbound/
2. 执行 whisper PATH --model tiny --language ru --output_format txt
3. 读取转录文本并通过 message action=send 回复
4. rm PATH /tmp/whisper/* 清理文件

支持两种自动化模式：子代理轮询（每 5 秒检测新文件）或 cron 定时任务。

显著优点

完全离线隐私：无需网络连接，不调用任何外部 API，不存储 API 密钥，语音数据不出本机
零残留机制：转录后自动删除原始音频与临时文本文件，杜绝隐私泄露风险
轻量化部署：tiny 模型仅 72MB，首次下载后缓存，后续 1vCPU/4GB 环境下 <1 秒完成转录
零配置成本：无需注册账号或管理密钥，安装后即可使用
多语言支持：俄语/英语效果最佳，支持 --language detect 自动检测

潜在缺点与局限性

准确率限制：tiny 模型俄语识别准确率 85-95%，口音、噪音环境可能下降；追求更高精度需升级 base/small 模型（资源占用增加）
硬件门槛：4GB RAM 为推荐配置，低配环境可能触发交换分区导致延迟
首次冷启动：首次运行需 15 秒下载模型，体验不如已预热服务
仅支持 Telegram 生态：文件路径硬编码于 OpenClaw 架构，迁移成本较高
无说话人分离：无法区分对话多方，连续语音需人工分段

适合人群

隐私敏感型用户：记者、律师、医疗从业者等需本地处理敏感语音
俄语/英语 Telegram 重度用户：日常接收大量语音消息需快速浏览
离线环境工作者：内网服务器、航空/海上等无稳定网络场景
技术爱好者：希望自建 AI 工作流，避免云服务依赖

常规风险

| 风险类型 | 说明 | 缓解措施 |

|---------|------|---------|

| 模型偏见 | Whisper 可能对特定口音识别较差 | 重要内容人工复核 |

| 文件权限 | 自动删除依赖正确路径配置 | 定期检查 `/tmp/whisper` 残留 |

| 资源竞争 | 并发语音可能耗尽 RAM/CPU | 限制并发数或升级 small 模型时评估负载 |

| 转录错误 | 专业术语、人名可能错译 | 关键场景保留原始音频备查 |

总体评估：这是一个隐私优先、架构简洁的实用工具，适合作为个人或小团队 Telegram 工作流的语音处理层。对于准确率要求极高的场景，建议结合人工校验或升级模型规格。

安全解读

核心功能

tg-voice-whisper 是一款专为 Telegram 场景设计的语音转文字 Skill，利用 OpenAI Whisper 开源模型实现完全离线的语音识别。当用户收到 .ogg Opus 格式的语音消息时，系统自动调用本地 tiny 模型（72MB）进行转录，并将文字结果回复至对话中，随后立即删除临时文件，全程无云端传输、无 API 密钥存储。

显著优点

隐私极致保护：本地推理 + 自动清理，语音数据不出设备，符合 GDPR 数据最小化原则；零成本运行：无需订阅 OpenAI API，无密钥管理负担；极速响应：模型缓存后，1vCPU/4GB 配置下转录速度 <1 秒；多语言支持：俄语/英语识别准确率 85-95%，支持自动语言检测；部署灵活：支持 agent 即时调用与后台 cron 自动监听两种模式。

潜在缺点与局限性

准确率天花板：tiny 模型为轻量化版本，嘈杂环境或专业术语场景下误差率上升，需升级至 base/small 模型（更大体积、更长加载）；首次冷启动：约 15 秒模型下载时间，无网络环境首次使用受限；硬件门槛：4GB RAM 为推荐配置，低内存设备可能出现卡顿；语言偏向：俄语/英语优化明显，小语种或方言识别效果未经验证；来源可信度：T3 级个人开发者维护，无组织级代码审查背书。

适合人群

注重隐私、拒绝云端语音处理的 Telegram 重度用户
俄语/英语为主的跨境沟通场景
具备基础 Linux/服务器运维能力的技术用户
希望自建语音助理、降低 API 成本的个人开发者或小团队

常规风险

供应链风险：openai-whisper 与 ffmpeg 依赖社区维护，需关注 CVE 安全更新
路径注入风险：示例命令未对输入路径做严格验证，生产环境建议添加正则过滤
模型完整性：自动下载的模型文件缺乏哈希校验机制，存在理论上的中间人攻击可能
T3 来源限制：个人开发者账号，无企业级安全响应承诺，重大漏洞依赖社区反馈

privacy offline telegram voice-to-text whisper open-source local-ai automation

TG Voice Whisper Transcriber 内容

手动下载zip · 1.2 kB

SKILL.mdtext/markdown

请选择文件