使用说明

核心用法

Voice.ai TTS 是一个 Node.js 命令行工具与 SDK，封装了 Voice.ai 官方文本转语音 API。用户通过环境变量 VOICE_AI_API_KEY 鉴权后，可调用 9 种预设角色音色（如 youthful 的 Ellie、British 的 Oliver、ASMR 风格的 Lilith 等）生成 MP3/WAV/Opus 等格式的音频，支持 11 种语言的跨语言合成与实时流式输出。

CLI 使用示例：node scripts/tts.js --text "Hello" --voice ellie --output hello.mp3。SDK 提供 generateSpeech()、streamSpeech()、listVoices() 等方法，支持温度（temperature）和 top_p 参数调节语音表现力。

显著优点

零外部依赖：仅使用 Node.js 内置模块（https/fs/path 等），无 npm 依赖树风险，供应链攻击面极小。
官方 API 直链：强制 HTTPS 连接 Voice.ai 生产环境（dev.voice.ai），拒绝明文传输，防中间人攻击。
安全 credential 管理：API 密钥仅通过环境变量读取，无硬编码，内存驻留不落地。
功能完整：覆盖音色选择、多语言、流式生成、文件输出、语速调节等 TTS 核心场景，OpenClaw 集成提供 /tts 快捷指令。
透明度高：MIT 开源，含 CHANGELOG、SECURITY.md、完整 API 规范（OpenAPI），版本迭代清晰。

潜在缺点与局限

商业成本：依赖 Voice.ai 信用点（credit）计费，长期使用需付费；无免费离线替代方案。
网络依赖：必须连接 Voice.ai 云服务，无法本地离线运行，网络波动影响可用性。
音色固定：9 种预设角色不可自定义训练（v1.1.5 已移除语音样本上传功能），个性化受限。
T2 来源：由个人开发者维护，非企业级（T1）背书，长期维护稳定性需观察社区活跃度。
语言支持有限：11 语言覆盖主要欧美语种，中文、日语等亚洲语言暂不支持。

适合人群

播客、YouTuber、内容创作者需快速生成多角色配音
开发者构建需要流式 TTS 的语音交互应用
OpenClaw 用户希望通过聊天指令直接生成语音
对供应链安全敏感、希望零依赖部署的技术团队

常规风险

密钥泄露风险：若 VOICE_AI_API_KEY 误提交至代码仓库或共享环境，可能导致账户信用被盗用。
输出路径覆盖：CLI --output 参数接受任意文件路径，误操作可能覆盖现有文件。
API 服务变更：Voice.ai 端点或计费策略调整可能影响功能可用性。
隐私合规：文本内容上传至 Voice.ai 云端处理，敏感信息需脱敏后使用。

安全解读

核心用法

Voice.ai TTS 是一个 Node.js 命令行工具与 SDK，通过 Voice.ai 云端 API 将文本转换为自然语音。主要使用方式包括：

CLI 快速生成：node scripts/tts.js --text "Hello" --voice ellie
SDK 集成：JavaScript SDK 支持同步生成、流式传输及文件写入
OpenClaw 命令：通过 /tts、/voices 等聊天指令直接调用
参数调优：支持 temperature（表现力）和 top_p（随机性）调节输出风格

显著优点

零外部依赖：仅使用 Node.js 标准库（https/fs/path/url），供应链攻击面极小，依赖审计满分
安全实践完善：API Key 强制环境变量读取，无硬编码凭证；HTTPS 强制传输；v1.1.3 主动移除语音上传功能降低隐私风险
功能丰富：9 种精心设计的角色声音（从清新女声到史诗英雄）、11 种语言支持、实时流式输出、多种音频格式
代码透明：MIT 开源协议，SECURITY.md 完整记录安全边界，静态与动态分析均通过

潜在缺点与局限性

第三方服务依赖：核心功能完全依赖 Voice.ai 云端 API，服务不可用或终止时 Skill 失效；存在数据出境合规考量
T3 来源可信度：由个人开发者（Nick Gill）维护，长期维护承诺与审计资源较企业项目有限
成本敏感：采用信用额度计费，无本地速率限制机制，误操作可能导致额度快速耗尽
无离线能力：必须联网使用，无法本地推理

适合人群

内容创作者（播客、视频配音、有声书制作）
开发者构建语音交互应用或聊天机器人
多语言内容本地化团队
对供应链安全敏感、希望最小化依赖的用户

常规风险

凭证泄露风险：环境变量可能在多用户系统通过 /proc 泄露，需确保权限正确设置
敏感数据外泄：用户可能无意将密码、PII 等发送至第三方 API，建议建立内容预审机制
成本失控：流式传输虽高效，但长文本或高频调用需配合缓存策略控制支出

tts voice speech voice-ai audio streaming multilingual official-api zero-dependencies

Voice.ai Voices 内容

scripts文件夹

手动下载zip · 19.2 kB

tts.jstext/javascript

请选择文件