使用说明

核心用法

Telegram 群组语音消息发送技能通过 Microsoft Edge-TTS 引擎生成高质量中文语音，经 FFmpeg 转换为 Telegram 兼容的 OGG Opus 格式，以语音气泡形式发送至指定群组或话题。用户可通过自然语言指令（如"向 agent:main:telegram:group:[GROUP_ID]:topic:[TOPIC_ID] 发送语音: 内容"）、sessions_spawn 调用或直接 JS 函数调用的方式触发。

显著优点

1. 话题级上下文隔离：每个 Telegram 话题拥有独立的会话键格式 agent:main:telegram:group:{groupId}:topic:{threadId}，对话历史、AI 模型配置完全隔离，可直接替代 Discord 频道的组织功能
2. 高质量语音合成：采用 Microsoft Edge-TTS（zh-CN-XiaoxiaoNeural 等音色），支持语速调节（如 +5%）
3. 格式自动适配：自动生成 MP3 后通过 FFmpeg 转换为 libopus 编码、48k 比特率、48kHz 采样率的 VOIP 级 OGG 格式，确保 Telegram 语音气泡原生播放
4. 智能文本清洗：自动移除 Markdown 标记、URL 链接和特殊符号，避免朗读出格式符号
5. 多模型并行支持：不同话题可配置不同 AI 模型，实现真正的多租户隔离

潜在缺点与局限性

部署门槛较高：需完成 Bot 创建、群组邀请、管理员权限授予、话题创建等 6 步配置流程
依赖外部服务：依赖 Microsoft Edge-TTS 在线服务和 Telegram Bot API，存在服务可用性风险
Linux 环境限制：metadata 显示仅支持 Linux 系统，且需预装 ffmpeg 和 edge-tts 二进制依赖
语音内容审核：自动发送至公开群组时缺乏人工审核环节，存在误发或内容不当风险
临时文件管理：虽声称自动清理，但高频调用时 /tmp 目录的 IO 和磁盘占用需关注

适合人群

运营 Telegram 社区（替代 Discord）的管理员，需要话题级隔离的组织者
需要将 AI 助手语音化输出至即时通讯场景的内容创作者
构建多租户 AI 服务、需为不同客户/项目隔离上下文的开发者

常规风险

权限过度授予：部署教程要求授予删除消息、封禁成员、添加管理员等敏感权限，实际仅需发送消息和发送媒体即可完成核心功能
会话键泄露：群组 ID 和话题 ID 组合可能暴露群组结构，建议通过环境变量或加密存储管理
TTS 内容注入：用户输入文本直接传入 edge-tts 命令行，虽经清洗但仍需防范命令注入（文档未明确说明是否使用参数化调用）
频率限制：Telegram Bot API 对语音消息有速率限制，大规模群发可能触发封禁
隐私合规：语音消息生成涉及文本内容处理，需关注 Microsoft TTS 服务的数据留存政策

telegram voice tts edge-tts community-management discord-alternative group-chat topic-thread

Telegram Voice Group 内容

手动下载zip · 3.2 kB

SKILL.mdtext/markdown

请选择文件