telegram-voice-group

🔊 Telegram 智能语音播报助手

基于 Edge-TTS 与 FFmpeg 的 Telegram 群组语音播报工具,支持话题级上下文隔离,适用于社区自动化通知,但存在命令注入风险需谨慎使用。

收藏
21.6k
安装
4.5k
版本
v0.1.5
CLS 安全性认证2026-05-06
点击查看完整报告 >

使用说明

telegram-voice-group 是一款专为 Telegram 生态设计的语音消息自动化工具,通过集成 Microsoft Edge-TTS 与 FFmpeg,实现高质量文本转语音并发送至指定群组话题。

核心用法方面,该技能支持三种调用模式:直接在 OpenClaw 会话中以自然语言指令发送、通过 sessions_spawn API 程序化调用,以及在 JavaScript 环境中直接引入模块执行。其独特之处在于深度整合 Telegram 话题(Topic)功能,支持向 agent:main:telegram:group:{groupId}:topic:{threadId} 格式的特定话题发送语音,实现类似 Discord 频道的上下文隔离,每个话题拥有独立的会话历史和配置。

显著优点体现在技术实现与功能设计的结合:采用 Edge-TTS 生成高质量中文语音,支持语速调节与多种音色选择;自动通过 FFmpeg 转换为 Telegram 兼容的 OGG Opus 格式(48k比特率、单声道、48kHz采样率),确保语音气泡正常显示;内置文本清洗机制,自动移除 Markdown 标记、URL 和特殊符号,避免朗读干扰;临时文件生成后通过 finally 块与 trap 机制双重保障清理。

潜在缺点与局限性包括:仅支持 Linux 系统运行;强依赖外部二进制工具(ffmpeg 与 edge-tts),需用户手动安装且版本未锁定;作为 T3 级社区来源项目,代码维护与长期支持存在不确定性;当前实现存在命令注入漏洞,对用户输入的验证机制不足。

适合的目标群体主要包括:需要构建 Telegram 自动化通知系统的开发者与运维人员;希望用 Telegram 话题功能替代 Discord 频道进行社区管理的运营者;以及需要将 AI 生成内容转换为语音播报的客服与内容创作者。

使用风险需重点关注:由于用户输入直接拼接到 shell 命令执行,存在命令注入风险,建议仅在可信环境或沙箱中运行;依赖项故障可能导致服务中断;临时文件存储于 /tmp 目录,需确保文件系统权限正确;在高安全要求场景下,建议修复输入验证机制后再投入生产使用。

安全解读

核心用法

Telegram 群组语音消息发送技能允许用户通过自然语言指令或 API 调用,向指定的 Telegram 群组话题发送语音消息。核心工作流为:接收文本输入 → 使用 Microsoft Edge-TTS 生成语音 → FFmpeg 转换为 Telegram 兼容的 OGG Opus 格式 → 通过 @openclaw/core 的 message 工具发送至目标群组话题。

显著优点

1. 高质量语音合成:基于 Microsoft Edge-TTS 引擎,支持中文等多语言,提供自然流畅的语音输出,可配置语速(如 rate: +5%)和音色(如 zh-CN-XiaoxiaoNeural)。

2. 话题隔离架构:每个 Telegram 话题拥有独立的会话上下文(格式:agent:main:telegram:group:{groupId}:topic:{threadId}),实现完全隔离的对话历史和上下文管理,可作为 Discord 频道的替代方案,支持不同话题配置不同 AI 模型。

3. 格式自动清洗:内置文本预处理机制,自动移除 Markdown 标记、URL 链接和特殊符号,确保语音朗读效果自然,避免读出无意义的格式符号。

4. 零第三方 npm 依赖:仅依赖系统级工具 edge-ttsffmpeg,无额外的 npm 包引入,降低供应链攻击风险。

5. 临时文件安全管理:使用 /tmp 目录存储中间文件,通过 try-finally 结构确保文件清理,避免磁盘空间泄漏。

潜在缺点与局限性

1. 命令注入风险:使用 child_process.exec 拼接 shell 命令执行 edge-ttsffmpeg,虽对输入文本做了基础引号过滤,但仍存在潜在的命令注入面,需确保输入来源可信。

2. 外部依赖前置要求:必须预先安装 edge-tsffmpeg 系统工具,部署环境配置相对复杂,缺少依赖时会直接报错。

3. 平台限制:当前仅支持 Linux 环境(os: ["linux"]),Windows/macOS 用户需自行适配或容器化部署。

4. 文本长度与性能:长文本生成语音耗时较长,且 exec 缓冲区存在溢出风险(大文件场景建议改用 spawn)。

适合人群

  • 需要将 AI 对话内容实时语音播报至社群的运营者
  • 使用 Telegram 话题功能管理多项目/多客户团队的协作场景
  • 寻求 Discord 替代方案、偏好 Telegram 生态的社区组织者
  • 已具备 Linux 服务器运维能力的技术用户

常规风险

  • 输入验证风险:若调用方未对 text 参数做前置校验,恶意构造的输入可能突破简单的引号过滤。
  • 依赖可用性edge-tts 依赖 Microsoft Edge 的在线 TTS 服务,网络波动或微软服务变更可能影响功能。
  • 隐私合规:语音内容通过 Telegram Bot API 传输,需确保符合目标群组的数据合规要求。

telegram-voice-group 内容

手动下载zip · 13.0 kB
DEPENDENCIES.mdtext/markdown
请选择文件