comfyui-tts - ComfyUI 本地语音合成专家

使用说明

ComfyUI TTS Skill 是一款基于 ComfyUI 平台集成的文本转语音工具，通过调用本地部署的 Qwen-TTS 模型服务，为用户提供高质量、可定制的语音合成能力。该技能通过命令行脚本与 ComfyUI API 交互，支持多种音色角色、情感风格和模型规模选择，适用于自动化配音、内容创作辅助及开发测试等场景。

核心用法上，用户需先配置 COMFYUI_HOST 和 COMFYUI_PORT 环境变量指向本地服务，随后通过 scripts/tts.sh 脚本传入文本内容，并可选用 --character 指定角色（如 Girl/Boy）、--style 设置情感风格（Emotional/Neutral）、--model 选择模型规模（0.5B/1.7B/3B）以及 --output 自定义输出路径。脚本内部自动构建工作流 JSON 并提交至 ComfyUI 的 /prompt 端点，通过轮询 /history 接口等待任务完成，最终返回生成的音频文件路径。

显著优点包括：首先是隐私安全性极高，所有文本处理和语音生成都发生在本地 ComfyUI 服务，无数据上传至第三方服务器；其次是灵活性，支持多维度语音定制，从基础音色的性别选择到情感表达风格，再到不同规模的模型权衡（小模型速度快、大模型质量高）；第三是轻量依赖，仅需系统标准的 curl 和 jq 工具，无额外的包管理器依赖；第四是完善的错误处理机制，包含连接检测、超时重试和清晰的错误提示。

潜在缺点方面，该技能高度依赖用户自行搭建和维护 ComfyUI 服务及 Qwen-TTS 插件环境，对非技术用户有一定门槛；作为 T3 来源的个人开发者作品，缺乏知名组织背书，尽管代码审查通过但仍需用户自行承担维护风险；功能上目前仅支持本地 ComfyUI 实例，无法直接调用云端 API；此外脚本暂未实现 ComfyUI 服务的身份验证支持，若服务配置不当可能存在安全隐患。

适合的目标群体主要包括：已部署 ComfyUI 并安装 Qwen-TTS 插件的技术用户；对数据隐私敏感、拒绝使用云端 TTS 服务的内容创作者；需要批量自动化语音生成的开发者；以及希望测试和对比不同规模 TTS 模型效果的研究人员。

使用风险需关注：若将 ComfyUI 服务暴露于公网且未设置访问控制，可能面临未授权访问风险；虽然脚本对输入进行了 JSON 转义，但建议避免输入超长文本或特殊控制字符以防意外；输出目录权限配置不当可能导致文件写入失败或权限混乱；此外大模型（3B）生成耗时较长，在自动化流水线中需合理设置超时参数。

content-media automation productivity

comfyui-tts 内容

scripts文件夹

手动下载zip · 6.4 kB

test_history.shtext/x-shellscript

请选择文件