核心用法
Voice.ai TTS 是一个 Node.js 命令行工具与 SDK,封装了 Voice.ai 官方文本转语音 API。用户通过环境变量 VOICE_AI_API_KEY 鉴权后,可调用 9 种预设角色音色(如 youthful 的 Ellie、British 的 Oliver、ASMR 风格的 Lilith 等)生成 MP3/WAV/Opus 等格式的音频,支持 11 种语言的跨语言合成与实时流式输出。
CLI 使用示例:node scripts/tts.js --text "Hello" --voice ellie --output hello.mp3。SDK 提供 generateSpeech()、streamSpeech()、listVoices() 等方法,支持温度(temperature)和 top_p 参数调节语音表现力。
显著优点
- 零外部依赖:仅使用 Node.js 内置模块(https/fs/path 等),无 npm 依赖树风险,供应链攻击面极小。
- 官方 API 直链:强制 HTTPS 连接 Voice.ai 生产环境(dev.voice.ai),拒绝明文传输,防中间人攻击。
- 安全 credential 管理:API 密钥仅通过环境变量读取,无硬编码,内存驻留不落地。
- 功能完整:覆盖音色选择、多语言、流式生成、文件输出、语速调节等 TTS 核心场景,OpenClaw 集成提供
/tts快捷指令。 - 透明度高:MIT 开源,含 CHANGELOG、SECURITY.md、完整 API 规范(OpenAPI),版本迭代清晰。
潜在缺点与局限
- 商业成本:依赖 Voice.ai 信用点(credit)计费,长期使用需付费;无免费离线替代方案。
- 网络依赖:必须连接 Voice.ai 云服务,无法本地离线运行,网络波动影响可用性。
- 音色固定:9 种预设角色不可自定义训练(v1.1.5 已移除语音样本上传功能),个性化受限。
- T2 来源:由个人开发者维护,非企业级(T1)背书,长期维护稳定性需观察社区活跃度。
- 语言支持有限:11 语言覆盖主要欧美语种,中文、日语等亚洲语言暂不支持。
适合人群
- 播客、YouTuber、内容创作者需快速生成多角色配音
- 开发者构建需要流式 TTS 的语音交互应用
- OpenClaw 用户希望通过聊天指令直接生成语音
- 对供应链安全敏感、希望零依赖部署的技术团队
常规风险
- 密钥泄露风险:若
VOICE_AI_API_KEY误提交至代码仓库或共享环境,可能导致账户信用被盗用。 - 输出路径覆盖:CLI
--output参数接受任意文件路径,误操作可能覆盖现有文件。 - API 服务变更:Voice.ai 端点或计费策略调整可能影响功能可用性。
- 隐私合规:文本内容上传至 Voice.ai 云端处理,敏感信息需脱敏后使用。