核心用法
tts-whatsapp 是一款将文字转换为语音并通过WhatsApp自动发送的自动化工具。核心工作流程为:输入文字 → Piper TTS生成音频 → FFmpeg转换为OGG/Opus格式 → 自动推送至指定WhatsApp个人或群组。
典型调用示例:
tts-whatsapp "Hello, this is a test" --target "+15555550123" tts-whatsapp "Hello everyone" --target "120363257357161211@g.us" # 群组 tts-whatsapp "Hola mundo" --lang es_ES --voice carlfm --target "+34..."
配置支持通过 ~/.clawdbot/clawdbot.json 设置默认值,避免每次重复输入目标号码、语言偏好等参数。
显著优点
- 本地化TTS引擎:基于Piper(Rhasspy项目),开源离线运行,无需依赖云端API,隐私性较好
- 格式兼容优化:自动处理WhatsApp原生OGG/Opus格式转换,用户无需手动转码
- 群组广播能力:支持向WhatsApp群组发送语音,拓展了TTS工具的应用场景
- 多语言覆盖:40+语言、多音色可选,适合跨国沟通与语言学习场景
- 响应速度快:官方标称10秒语音仅需约2.3秒完成全流程
潜在缺点与局限性
- 环境依赖较重:需独立安装Piper TTS、FFmpeg,并手动下载放置语音模型文件,门槛高于纯API方案
- 缺乏官方安全审计:仓库为Community维护,未声明代码签名或第三方安全审查
- WhatsApp集成风险:依赖Clawdbot实现消息发送,若Clawdbot底层使用非官方WhatsApp Web/MD协议,存在账号封禁风险
- 无内容审核机制:生成的语音内容未经过滤,若输入敏感文本可能直接发送,存在合规隐患
- 模型文件管理:语音模型体积较大(数十至数百MB),需手动维护版本与路径
适合人群
- 需要批量发送语音通知的运营/客服团队
- 多语言内容创作者与语言学习者
- 注重隐私、倾向本地TTS而非云端服务的用户
- 已部署Clawdbot生态的技术用户
常规风险
| 风险类型 | 说明 |
|---------|------|
| 账号安全 | WhatsApp自动化发送可能触发平台风控,导致临时或永久封号 |
| 内容安全 | TTS输出与原文本一致,无内置敏感词过滤,需自行前置校验 |
| 供应链风险 | Piper模型来自Hugging Face,需确认来源完整性 |
| 数据残留 | 声称自动清理文件,但建议验证临时文件是否真正删除 |