ComfyUI TTS Skill 是一款基于 ComfyUI 平台集成的文本转语音工具,通过调用本地部署的 Qwen-TTS 模型服务,为用户提供高质量、可定制的语音合成能力。该技能通过命令行脚本与 ComfyUI API 交互,支持多种音色角色、情感风格和模型规模选择,适用于自动化配音、内容创作辅助及开发测试等场景。
核心用法上,用户需先配置 COMFYUI_HOST 和 COMFYUI_PORT 环境变量指向本地服务,随后通过 scripts/tts.sh 脚本传入文本内容,并可选用 --character 指定角色(如 Girl/Boy)、--style 设置情感风格(Emotional/Neutral)、--model 选择模型规模(0.5B/1.7B/3B)以及 --output 自定义输出路径。脚本内部自动构建工作流 JSON 并提交至 ComfyUI 的 /prompt 端点,通过轮询 /history 接口等待任务完成,最终返回生成的音频文件路径。
显著优点包括:首先是隐私安全性极高,所有文本处理和语音生成都发生在本地 ComfyUI 服务,无数据上传至第三方服务器;其次是灵活性,支持多维度语音定制,从基础音色的性别选择到情感表达风格,再到不同规模的模型权衡(小模型速度快、大模型质量高);第三是轻量依赖,仅需系统标准的 curl 和 jq 工具,无额外的包管理器依赖;第四是完善的错误处理机制,包含连接检测、超时重试和清晰的错误提示。
潜在缺点方面,该技能高度依赖用户自行搭建和维护 ComfyUI 服务及 Qwen-TTS 插件环境,对非技术用户有一定门槛;作为 T3 来源的个人开发者作品,缺乏知名组织背书,尽管代码审查通过但仍需用户自行承担维护风险;功能上目前仅支持本地 ComfyUI 实例,无法直接调用云端 API;此外脚本暂未实现 ComfyUI 服务的身份验证支持,若服务配置不当可能存在安全隐患。
适合的目标群体主要包括:已部署 ComfyUI 并安装 Qwen-TTS 插件的技术用户;对数据隐私敏感、拒绝使用云端 TTS 服务的内容创作者;需要批量自动化语音生成的开发者;以及希望测试和对比不同规模 TTS 模型效果的研究人员。
使用风险需关注:若将 ComfyUI 服务暴露于公网且未设置访问控制,可能面临未授权访问风险;虽然脚本对输入进行了 JSON 转义,但建议避免输入超长文本或特殊控制字符以防意外;输出目录权限配置不当可能导致文件写入失败或权限混乱;此外大模型(3B)生成耗时较长,在自动化流水线中需合理设置超时参数。