使用说明

核心用法

telegram-voice-group 技能通过集成 Microsoft Edge-TTS 与 FFmpeg，实现高质量中文语音合成并推送至 Telegram 群组指定话题。用户可通过自然语言指令（"向 {会话键} 发送语音: {内容}"）、sessions_spawn 调用或直接使用 Node.js 函数三种方式触发。会话键格式为 agent:main:telegram:group:{groupId}:topic:{threadId}，每个话题拥有完全独立的上下文与对话历史，可替代 Discord 频道进行多频道管理。

显著优点

话题级上下文隔离：不同 threadId 的会话历史互不干扰，支持为每个话题配置独立 AI 模型
音质优化：采用 Edge-TTS 的神经网络语音（默认 zh-CN-XiaoxiaoNeural）+ Opus 48k 编码，朗读效果自然
格式自动清洗：自动剥离 Markdown、URL、特殊符号，避免朗读噪音
部署文档详尽：包含完整的 Bot 邀请、权限配置、ID 获取教程，降低接入门槛

潜在缺点与局限性

外部依赖重：必须预装 edge-tts 与 ffmpeg，Linux 环境配置复杂度较高
仅限 Linux：当前不支持 Windows/macOS 部署
语音可控性有限：仅支持 rate 调节，无法细调 pitch、volume 或选择非中文音色
临时文件管理：虽声称自动清理，但未明确异常退出时的残留处理机制

适合人群

运营 Telegram 社区的多频道管理员
需要将 Discord 频道架构迁移至 Telegram 的 AI Bot 开发者
追求快速部署、对语音质量有基础要求但无需深度定制的用户

常规风险

权限配置风险：Bot 需管理员权限才能正常发送媒体，过度授权可能带来群组管理安全隐患
群组 ID 暴露：会话键包含明文 groupId/threadId，若日志未脱敏可能导致敏感会话标识泄露
依赖服务可用性：Edge-TTS 依赖微软在线 TTS 服务，网络波动或 API 变更将影响功能
语音内容合规：自动清洗仅处理格式符号，不审查语义内容，违规语音发送责任由运营方承担

telegram voice-synthesis text-to-speech edge-tts ffmpeg group-chat threading community-management

Telegram Voice Group 内容

手动下载zip · 12.7 kB

DEPENDENCIES.mdtext/markdown

请选择文件