核心用法
Kokoro TTS 是一款开源本地文本转语音(TTS)技能,通过调用本地或远程 API 服务将文本转换为高质量 AI 语音。用户需配置 KOKORO_API_URL 环境变量指向服务端点,默认监听 localhost:8880。使用时通过 Node.js 脚本传入文本内容,可选指定音色(如 af_heart 温暖女声、am_adam 低沉男声)与语速(0.25-4.0 倍速),脚本输出 MEDIA: 前缀的 MP3 文件路径,由 OpenClaw 自动捕获并发送为音频消息。
显著优点
- 本地部署优先:数据不出本机,满足隐私合规与离线场景需求
- 轻量高效:Node.js 脚本调用简洁,响应延迟极低
- 音色丰富:内置英/美式男女声及专业风格选项,支持语速精细调节
- 零成本:开源方案,无需按量付费或订阅
潜在局限
- 部署门槛:需自行维护 TTS 后端服务,非开箱即用
- 语言限制:官方预设以英语音色为主,中文/多语言支持依赖社区扩展
- 资源占用:本地模型运行消耗 GPU/CPU 算力,低配置设备可能卡顿
- 无云端 fallback:服务端不可用时完全失效
适合人群
注重数据隐私的开发者、需离线 TTS 能力的自动化工作流用户、对延迟敏感的生产环境。
常规风险
环境变量配置错误导致连接失败;未经验证的第三方 Kokoro 服务端可能存在中间人攻击;生成内容若涉及敏感信息需确认本地存储安全策略。