使用说明

核心用法

tts-whatsapp 是一款将文字转换为语音并通过WhatsApp自动发送的自动化工具。核心工作流程为：输入文字 → Piper TTS生成音频 → FFmpeg转换为OGG/Opus格式 → 自动推送至指定WhatsApp个人或群组。

典型调用示例：

tts-whatsapp "Hello, this is a test" --target "+15555550123"
tts-whatsapp "Hello everyone" --target "120363257357161211@g.us"  # 群组
tts-whatsapp "Hola mundo" --lang es_ES --voice carlfm --target "+34..."

配置支持通过 ~/.clawdbot/clawdbot.json 设置默认值，避免每次重复输入目标号码、语言偏好等参数。

显著优点

本地化TTS引擎：基于Piper（Rhasspy项目），开源离线运行，无需依赖云端API，隐私性较好
格式兼容优化：自动处理WhatsApp原生OGG/Opus格式转换，用户无需手动转码
群组广播能力：支持向WhatsApp群组发送语音，拓展了TTS工具的应用场景
多语言覆盖：40+语言、多音色可选，适合跨国沟通与语言学习场景
响应速度快：官方标称10秒语音仅需约2.3秒完成全流程

潜在缺点与局限性

环境依赖较重：需独立安装Piper TTS、FFmpeg，并手动下载放置语音模型文件，门槛高于纯API方案
缺乏官方安全审计：仓库为Community维护，未声明代码签名或第三方安全审查
WhatsApp集成风险：依赖Clawdbot实现消息发送，若Clawdbot底层使用非官方WhatsApp Web/MD协议，存在账号封禁风险
无内容审核机制：生成的语音内容未经过滤，若输入敏感文本可能直接发送，存在合规隐患
模型文件管理：语音模型体积较大（数十至数百MB），需手动维护版本与路径

适合人群

需要批量发送语音通知的运营/客服团队
多语言内容创作者与语言学习者
注重隐私、倾向本地TTS而非云端服务的用户
已部署Clawdbot生态的技术用户

常规风险

| 风险类型 | 说明 |

|---------|------|

| 账号安全 | WhatsApp自动化发送可能触发平台风控，导致临时或永久封号 |

| 内容安全 | TTS输出与原文本一致，无内置敏感词过滤，需自行前置校验 |

| 供应链风险 | Piper模型来自Hugging Face，需确认来源完整性 |

| 数据残留 | 声称自动清理文件，但建议验证临时文件是否真正删除 |

安全解读

核心用法

TTS WhatsApp 是一个纯文档型 Skill，用于将文本转换为语音并通过 WhatsApp 发送。用户需先安装 Piper TTS 引擎和 FFmpeg，下载语音模型后，通过命令行调用 tts-whatsapp 并指定目标号码/群组、文本内容和语言参数即可。支持个人消息和群组广播，默认 2-3 秒完成从生成到送达。

显著优点

多语言支持：覆盖 40+ 语言，含法语、英语、西班牙语、德语、意大利语等主流语种
音质可调：提供 x_low 到 high 四级质量，适应不同网络环境
群组友好：直接支持 WhatsApp 群组 ID（@g.us 格式），适合通知广播
自动清理：发送后自动删除临时文件，保护隐私
零代码风险：纯 Markdown 文档，无可执行代码，天然安全

潜在缺点与局限性

外部依赖重：需用户自行安装 Piper TTS、FFmpeg 并下载 ONNX 语音模型，配置门槛较高
无内置模型：语音模型体积较大（数十至数百 MB），首次使用需手动下载
平台限制：依赖 Clawdbot 生态，非独立运行工具
无实时预览：生成前无法试听，需发送后才能验证效果

适合人群

需要频繁发送多语言语音消息的商务用户
社区运营者进行群组广播通知
视障辅助或语音优先交互场景
对 CLI 工具熟练的技术用户

常规风险

模型来源风险：需从 Hugging Face 下载 .onnx 模型，建议仅使用官方渠道
隐私注意：语音消息通过 WhatsApp 传输，需遵守平台规则；临时文件虽自动清理，但在共享环境中仍可能残留
依赖维护：Piper TTS 和 FFmpeg 版本更新可能影响兼容性

whatsapp tts voice messaging multilingual audio automation privacy-focused

TTS WhatsApp 内容

手动下载zip · 10.5 kB

CHANGELOG.mdtext/markdown

请选择文件