使用说明

核心用法

Kokoro TTS 是一款开源本地文本转语音（TTS）技能，通过调用本地或远程 API 服务将文本转换为高质量 AI 语音。用户需配置 KOKORO_API_URL 环境变量指向服务端点，默认监听 localhost:8880。使用时通过 Node.js 脚本传入文本内容，可选指定音色（如 af_heart 温暖女声、am_adam 低沉男声）与语速（0.25-4.0 倍速），脚本输出 MEDIA: 前缀的 MP3 文件路径，由 OpenClaw 自动捕获并发送为音频消息。

显著优点

本地部署优先：数据不出本机，满足隐私合规与离线场景需求
轻量高效：Node.js 脚本调用简洁，响应延迟极低
音色丰富：内置英/美式男女声及专业风格选项，支持语速精细调节
零成本：开源方案，无需按量付费或订阅

潜在局限

部署门槛：需自行维护 TTS 后端服务，非开箱即用
语言限制：官方预设以英语音色为主，中文/多语言支持依赖社区扩展
资源占用：本地模型运行消耗 GPU/CPU 算力，低配置设备可能卡顿
无云端 fallback：服务端不可用时完全失效

适合人群

注重数据隐私的开发者、需离线 TTS 能力的自动化工作流用户、对延迟敏感的生产环境。

常规风险

环境变量配置错误导致连接失败；未经验证的第三方 Kokoro 服务端可能存在中间人攻击；生成内容若涉及敏感信息需确认本地存储安全策略。

安全解读

核心用法

Kokoro TTS 是一个用于将文本转换为语音的本地 AI 工具，通过调用本地部署的 Kokoro TTS 服务实现离线语音合成。用户可通过命令行脚本 tts.js 快速生成语音文件，支持自定义音色（voice）、语速（speed）等参数，输出为标准 MP3 格式。

基本调用方式：

node skills/kokoro-tts/scripts/tts.js "要转换的文本" [音色ID] [语速]

系统默认使用 af_heart 音色（温暖女声），并提供多种预设音色如专业女声 af_nova、低沉男声 am_adam、英式女声 bf_alice 等。生成的音频文件路径以 MEDIA: 前缀输出，可被 OpenClaw 等平台自动识别为音频附件。

显著优点

1. 完全本地运行：数据不离开本机，无需联网即可使用，隐私保护极佳
2. 零第三方依赖：仅使用 Node.js 内置模块，无供应链攻击风险
3. 开源模型底座：基于 Kokoro（282M 参数）TTS 模型，音质接近商业级
4. 多音色支持：提供十余种中英文音色，覆盖不同场景需求
5. 灵活配置：支持通过环境变量 KOKORO_API_URL 自定义服务端点，便于远程部署

潜在缺点与局限性

需自行部署后端：本 Skill 仅为客户端，需用户预先在本地或服务器安装 Kokoro TTS 服务（默认端口 8880）
无内置语音预览：无法提前试听音色效果，需实际生成后确认
音频格式单一：仅输出 MP3，不支持 WAV、OGG 等其他格式
长文本处理：未明确支持超长文本自动分句或批量处理

适合人群

对数据隐私高度敏感的用户（律师、医生、研究人员）
需要离线语音合成的开发者与内容创作者
希望在本地环境构建 AI 语音工作流的技术用户
企业内网环境下的语音播报系统建设者

常规风险

本地 HTTP 通信：默认使用未加密的 HTTP 协议连接 localhost，虽数据不出本机，但在多用户服务器环境或远程部署时建议改用 HTTPS
输入未限长：未对输入文本长度做强制限制，极端情况下可能导致过大请求
T3 来源等级：由个人开发者维护，无企业背书，长期维护稳定性需关注社区动态

tts voice-synthesis local-ai privacy-first audio-generation kokoro self-hosted

Kokoro TTS 内容

references文件夹

scripts文件夹

手动下载zip · 2.4 kB

voices.mdtext/markdown

请选择文件