核心用法
Telegram 群组语音消息发送 是一款面向 OpenClaw 生态的语音通信技能,允许 AI 助理将文本转换为语音并发送至指定的 Telegram 群组话题。核心使用模式为:
1. 自然语言触发:直接指令 "向 {会话键} 发送语音: {内容}"
2. 程序化调用:通过 sessions_spawn 或 sendVoiceToTelegramGroup API 集成
3. 话题定向:支持 threadId 参数实现话题级精准投递
技术流程为:Edge-TTS 生成 MP3 → FFmpeg 转码为 Telegram 兼容的 OGG Opus → 以语音气泡形式发送。
显著优点
- 高质量语音合成:采用 Microsoft Azure 神经网络语音(默认 zh-CN-XiaoxiaoNeural),支持语速调节
- Discord 替代方案:话题级会话隔离,每个话题拥有独立上下文
agent:main:telegram:group:{groupId}:topic:{threadId},支持多模型并行配置 - 格式智能清洗:自动移除 Markdown、URL、特殊符号,避免朗读噪声
- 专业音频编码:48k Opus 单声道,兼顾音质与文件体积
- 灵活部署:支持 Linux 环境,依赖仅 ffmpeg 与 edge-tts
潜在局限
- 平台锁定:仅支持 Telegram,无法迁移至其他 IM 平台
- 依赖外部服务:Edge-TTS 需网络连接至微软服务器
- 无实时语音:仅支持离线生成后发送,非实时通话
- 权限门槛:需 Bot 具备群组管理员权限方可正常运作
- 环境限制:OpenClaw metadata 明确限定
os: ["linux"]
适合人群
- 社区运营者:需通过 AI 自动播报群公告、活动提醒
- Discord 迁移用户:寻求频道级隔离的 Telegram 替代方案
- 开发者:需在自动化工作流中集成语音通知功能
- 多语言社区:利用 Edge-TTS 多语种能力服务国际化群组
常规风险
- 权限失控风险:管理员权限授予第三方 Bot 存在潜在越权操作可能
- 内容合规风险:语音内容绕过文本审核,需确保生成内容符合群组规范
- 依赖可用性:微软 TTS 服务或 Telegram API 变更可能导致功能中断
- 临时文件管理:虽声称自动清理,但高并发场景下 /tmp 目录可能堆积
- 会话键泄露:硬编码的 groupId/topicId 若暴露可能导致消息误发至错误群组