使用说明

核心功能

telegram-voice-group 是一款面向 Telegram 群组的语音消息自动化工具，核心能力是将文本实时转换为高质量中文语音并发送至指定群组话题。该技能采用 Microsoft Edge-TTS 引擎生成自然语音，通过 FFmpeg 编码为 Telegram 兼容的 OGG Opus 格式，最终以语音气泡形式呈现，提供接近真人的听觉体验。

显著优点

技术整合度高：无缝集成 edge-tts + ffmpeg 双工具链，自动完成文本清洗（移除 Markdown、URL、特殊符号）、语音生成、格式转换、文件清理全流程，用户无需关注底层实现。

架构设计先进：利用 Telegram 话题（Topic）机制实现会话上下文隔离，每个话题拥有独立的会话键 agent:main:telegram:group:{groupId}:topic:{threadId}，对话历史、AI 模型配置完全隔离，可替代 Discord 频道的组织功能，支持多话题并行运行不同模型。

部署文档详尽：提供从创建群组、邀请 Bot、配置管理员权限、获取群组 ID 到创建话题的完整 6 步教程，降低使用门槛。

潜在局限

平台锁定：仅支持 Telegram，无法迁移至 Discord、Slack 等其他平台
依赖外部服务：依赖 Microsoft Edge-TTS 在线服务，网络不稳定时生成失败
语音风格单一：默认使用 zh-CN-XiaoxiaoNeural 女声，虽支持 rate 调节但音色选择有限
权限要求严格：需 Bot 具备删除消息、发送媒体等管理员权限，配置不当导致发送失败

适合人群

运营 Telegram 社区的管理员，需定时推送语音公告
使用 OpenClaw 框架构建多话题 AI 工作流的开发者
希望用低成本方案替代 Discord 频道管理的中小团队

常规风险

权限滥用：Bot 管理员权限过高，若密钥泄露可被恶意利用删除消息、封禁成员
内容合规：自动发送语音缺乏人工审核环节，不适合金融、医疗等强监管场景
服务稳定性：依赖 edge-tts 在线 API，存在服务中断或速率限制风险

技术规格

| 项目 | 参数 |

|------|------|

| 语音引擎 | Microsoft Edge-TTS |

| 输出格式 | OGG Opus (libopus, 48k, 单声道, 48kHz) |

| 发送方式 | Telegram Bot API (asVoice: true) |

| 临时文件 | 自动生成与清理 |

安全解读

核心用法

Telegram Voice Group 是一款专用于 Telegram 生态的语音消息自动化工具。其核心功能是将文本通过 Microsoft Edge-TTS 合成为自然语音，经 FFmpeg 转码为 Telegram 兼容的 OGG Opus 格式后，以语音气泡形式发送至指定群组或话题。

使用流程：
1. 配置群组权限：将 Bot 邀请至目标群组并授予管理员权限（发送消息、发送媒体、删除消息等）
2. 获取会话键：格式为 agent:main:telegram:group:{groupId}:topic:{threadId}，话题 ID 可从邀请链接末尾提取
3. 发送语音：使用自然语言指令或 sessions_spawn API 调用，支持自定义语音角色（如 zh-CN-XiaoxiaoNeural）和语速（rate: "+5%"）

关键特性：

话题隔离：每个 Telegram 话题拥有独立会话上下文，可实现 Discord 频道级别的组织隔离，支持不同话题配置不同 AI 模型
格式清洗：自动过滤 Markdown 标记、URL 链接和特殊符号，避免语音朗读出标记符号
临时文件管理：语音文件生成后自动清理，避免磁盘泄漏

显著优点

1. 语音质量高：基于 Microsoft Edge-TTS，支持多种中文语音角色，自然度接近真人
2. 生态整合深：原生集成 OpenClaw 会话系统，支持话题级上下文隔离，适合复杂社区架构
3. 零第三方依赖：无 npm 包依赖，仅使用系统级 ffmpeg 和 edge-tts，供应链攻击面极小
4. 多调用方式灵活：支持自然语言指令、JavaScript API、sessions_spawn 三种调用模式
5. 替代 Discord 架构：通过话题隔离实现多频道独立上下文，降低跨平台迁移成本

潜在缺点与局限性

1. 平台锁定：仅支持 Telegram，无法迁移至 Discord、Slack 等其他平台
2. 系统依赖重：必须预先安装 ffmpeg 和 edge-tts，Windows 环境配置复杂度高
3. 无输入长度限制：当前未对文本长度做硬性限制，超长文本可能生成过大文件或耗时过长
4. T3 来源风险：由个人开发者维护，无企业级 SLA 保障，更新频率不确定
5. 语音格式单一：仅支持单声道 48k Opus 输出，无法自定义音质参数
6. 权限门槛高：需要群组管理员权限，部分隐私群组可能无法接入

适合人群

社区运营者：需为 Telegram 群组提供 AI 语音播报、欢迎消息、定时通知等功能
多频道管理员：利用话题隔离特性管理多个独立 AI 会话，替代 Discord 多频道架构
开发者/极客：熟悉 JavaScript 和系统命令行，能够自主处理 ffmpeg/edge-tts 环境配置
中文内容创作者：依赖高质量中文 TTS 进行语音内容分发

不适合：追求开箱即用的非技术用户、需要跨平台兼容的企业级场景、对来源可信度要求极高的金融/医疗领域。

常规风险

| 风险类别 | 等级 | 说明 |

|---------|------|------|

| 系统命令注入 | 低 | 使用 `exec` 调用 ffmpeg/edge-tts，但参数经过过滤，无用户输入直接拼接 |

| 隐私泄露 | 低 | 仅向 Telegram API 发送消息内容，不收集用户敏感信息，临时文件自动清理 |

| 服务可用性 | 中 | 依赖 Telegram Bot API 稳定性，以及 edge-tts 服务的持续可用性 |

| 权限滥用 | 低 | 需管理员权限，误配置可能导致 Bot 被恶意利用发送垃圾消息 |

| 来源可信度 | 中 | T3 级别个人项目，建议生产环境使用前二次审计代码 |

建议操作：生产环境部署前审查 /tmp/bss_skill_xbc7xmpz/index.js 第 49、53 行的命令调用逻辑，确认无注入风险；为 edge-tts 和 ffmpeg 执行添加超时机制。

telegram voice tts group-chat messaging community-management edge-tts ffmpeg

Telegram Voice Group 内容

手动下载zip · 12.9 kB

DEPENDENCIES.mdtext/markdown

请选择文件