Kokoro TTS

🔊 本地 AI 语音合成,隐私零妥协

Kokoro TTS 本地语音合成引擎,支持多音色调节,零延迟生成自然语音,适合隐私敏感场景。

收藏
21.9k
安装
6.2k
版本
0.1.0
CLS 安全性认证2026-05-11
点击查看完整报告 >

使用说明

核心用法

Kokoro TTS 是一款开源本地文本转语音(TTS)技能,通过调用本地或远程 API 服务将文本转换为高质量 AI 语音。用户需配置 KOKORO_API_URL 环境变量指向服务端点,默认监听 localhost:8880。使用时通过 Node.js 脚本传入文本内容,可选指定音色(如 af_heart 温暖女声、am_adam 低沉男声)与语速(0.25-4.0 倍速),脚本输出 MEDIA: 前缀的 MP3 文件路径,由 OpenClaw 自动捕获并发送为音频消息。

显著优点

  • 本地部署优先:数据不出本机,满足隐私合规与离线场景需求
  • 轻量高效:Node.js 脚本调用简洁,响应延迟极低
  • 音色丰富:内置英/美式男女声及专业风格选项,支持语速精细调节
  • 零成本:开源方案,无需按量付费或订阅

潜在局限

  • 部署门槛:需自行维护 TTS 后端服务,非开箱即用
  • 语言限制:官方预设以英语音色为主,中文/多语言支持依赖社区扩展
  • 资源占用:本地模型运行消耗 GPU/CPU 算力,低配置设备可能卡顿
  • 无云端 fallback:服务端不可用时完全失效

适合人群

注重数据隐私的开发者、需离线 TTS 能力的自动化工作流用户、对延迟敏感的生产环境。

常规风险

环境变量配置错误导致连接失败;未经验证的第三方 Kokoro 服务端可能存在中间人攻击;生成内容若涉及敏感信息需确认本地存储安全策略。

安全解读

核心用法

Kokoro TTS 是一个用于将文本转换为语音的本地 AI 工具,通过调用本地部署的 Kokoro TTS 服务实现离线语音合成。用户可通过命令行脚本 tts.js 快速生成语音文件,支持自定义音色(voice)、语速(speed)等参数,输出为标准 MP3 格式。

基本调用方式:

node skills/kokoro-tts/scripts/tts.js "要转换的文本" [音色ID] [语速]

系统默认使用 af_heart 音色(温暖女声),并提供多种预设音色如专业女声 af_nova、低沉男声 am_adam、英式女声 bf_alice 等。生成的音频文件路径以 MEDIA: 前缀输出,可被 OpenClaw 等平台自动识别为音频附件。

显著优点

1. 完全本地运行:数据不离开本机,无需联网即可使用,隐私保护极佳
2. 零第三方依赖:仅使用 Node.js 内置模块,无供应链攻击风险

3. 开源模型底座:基于 Kokoro(282M 参数)TTS 模型,音质接近商业级

4. 多音色支持:提供十余种中英文音色,覆盖不同场景需求

5. 灵活配置:支持通过环境变量 KOKORO_API_URL 自定义服务端点,便于远程部署

潜在缺点与局限性

  • 需自行部署后端:本 Skill 仅为客户端,需用户预先在本地或服务器安装 Kokoro TTS 服务(默认端口 8880)
  • 无内置语音预览:无法提前试听音色效果,需实际生成后确认
  • 音频格式单一:仅输出 MP3,不支持 WAV、OGG 等其他格式
  • 长文本处理:未明确支持超长文本自动分句或批量处理

适合人群

  • 对数据隐私高度敏感的用户(律师、医生、研究人员)
  • 需要离线语音合成的开发者与内容创作者
  • 希望在本地环境构建 AI 语音工作流的技术用户
  • 企业内网环境下的语音播报系统建设者

常规风险

  • 本地 HTTP 通信:默认使用未加密的 HTTP 协议连接 localhost,虽数据不出本机,但在多用户服务器环境或远程部署时建议改用 HTTPS
  • 输入未限长:未对输入文本长度做强制限制,极端情况下可能导致过大请求
  • T3 来源等级:由个人开发者维护,无企业背书,长期维护稳定性需关注社区动态

Kokoro TTS 内容

references文件夹
scripts文件夹
手动下载zip · 2.4 kB
voices.mdtext/markdown
请选择文件