使用说明

telegram-voice-group 是一款专为 Telegram 生态设计的语音消息自动化工具，通过集成 Microsoft Edge-TTS 与 FFmpeg，实现高质量文本转语音并发送至指定群组话题。

核心用法方面，该技能支持三种调用模式：直接在 OpenClaw 会话中以自然语言指令发送、通过 sessions_spawn API 程序化调用，以及在 JavaScript 环境中直接引入模块执行。其独特之处在于深度整合 Telegram 话题（Topic）功能，支持向 agent:main:telegram:group:{groupId}:topic:{threadId} 格式的特定话题发送语音，实现类似 Discord 频道的上下文隔离，每个话题拥有独立的会话历史和配置。

显著优点体现在技术实现与功能设计的结合：采用 Edge-TTS 生成高质量中文语音，支持语速调节与多种音色选择；自动通过 FFmpeg 转换为 Telegram 兼容的 OGG Opus 格式（48k比特率、单声道、48kHz采样率），确保语音气泡正常显示；内置文本清洗机制，自动移除 Markdown 标记、URL 和特殊符号，避免朗读干扰；临时文件生成后通过 finally 块与 trap 机制双重保障清理。

潜在缺点与局限性包括：仅支持 Linux 系统运行；强依赖外部二进制工具（ffmpeg 与 edge-tts），需用户手动安装且版本未锁定；作为 T3 级社区来源项目，代码维护与长期支持存在不确定性；当前实现存在命令注入漏洞，对用户输入的验证机制不足。

适合的目标群体主要包括：需要构建 Telegram 自动化通知系统的开发者与运维人员；希望用 Telegram 话题功能替代 Discord 频道进行社区管理的运营者；以及需要将 AI 生成内容转换为语音播报的客服与内容创作者。

使用风险需重点关注：由于用户输入直接拼接到 shell 命令执行，存在命令注入风险，建议仅在可信环境或沙箱中运行；依赖项故障可能导致服务中断；临时文件存储于 /tmp 目录，需确保文件系统权限正确；在高安全要求场景下，建议修复输入验证机制后再投入生产使用。

安全解读

核心用法

Telegram 群组语音消息发送技能允许用户通过自然语言指令或 API 调用，向指定的 Telegram 群组话题发送语音消息。核心工作流为：接收文本输入 → 使用 Microsoft Edge-TTS 生成语音 → FFmpeg 转换为 Telegram 兼容的 OGG Opus 格式 → 通过 @openclaw/core 的 message 工具发送至目标群组话题。

显著优点

1. 高质量语音合成：基于 Microsoft Edge-TTS 引擎，支持中文等多语言，提供自然流畅的语音输出，可配置语速（如 rate: +5%）和音色（如 zh-CN-XiaoxiaoNeural）。

2. 话题隔离架构：每个 Telegram 话题拥有独立的会话上下文（格式：agent:main:telegram:group:{groupId}:topic:{threadId}），实现完全隔离的对话历史和上下文管理，可作为 Discord 频道的替代方案，支持不同话题配置不同 AI 模型。

3. 格式自动清洗：内置文本预处理机制，自动移除 Markdown 标记、URL 链接和特殊符号，确保语音朗读效果自然，避免读出无意义的格式符号。

4. 零第三方 npm 依赖：仅依赖系统级工具 edge-tts 和 ffmpeg，无额外的 npm 包引入，降低供应链攻击风险。

5. 临时文件安全管理：使用 /tmp 目录存储中间文件，通过 try-finally 结构确保文件清理，避免磁盘空间泄漏。

潜在缺点与局限性

1. 命令注入风险：使用 child_process.exec 拼接 shell 命令执行 edge-tts 和 ffmpeg，虽对输入文本做了基础引号过滤，但仍存在潜在的命令注入面，需确保输入来源可信。

2. 外部依赖前置要求：必须预先安装 edge-ts 和 ffmpeg 系统工具，部署环境配置相对复杂，缺少依赖时会直接报错。

3. 平台限制：当前仅支持 Linux 环境（os: ["linux"]），Windows/macOS 用户需自行适配或容器化部署。

4. 文本长度与性能：长文本生成语音耗时较长，且 exec 缓冲区存在溢出风险（大文件场景建议改用 spawn）。

适合人群

需要将 AI 对话内容实时语音播报至社群的运营者
使用 Telegram 话题功能管理多项目/多客户团队的协作场景
寻求 Discord 替代方案、偏好 Telegram 生态的社区组织者
已具备 Linux 服务器运维能力的技术用户

常规风险

输入验证风险：若调用方未对 text 参数做前置校验，恶意构造的输入可能突破简单的引号过滤。
依赖可用性：edge-tts 依赖 Microsoft Edge 的在线 TTS 服务，网络波动或微软服务变更可能影响功能。
隐私合规：语音内容通过 Telegram Bot API 传输，需确保符合目标群组的数据合规要求。

content-media automation productivity api customer-support

telegram-voice-group 内容

手动下载zip · 13.0 kB

DEPENDENCIES.mdtext/markdown

请选择文件