comfyui-tts

🔊 ComfyUI 本地语音合成专家

🥥47总安装量 10评分人数 9
100% 的用户推荐

基于 ComfyUI 的 Qwen-TTS 本地语音合成工具,支持多角色情感风格,数据仅本地处理保障隐私安全。

A

基本安全,请在特定环境下使用

  • 来自社区或个人来源,建议先隔离验证
  • ✅ 无危险代码执行,仅使用标准系统工具 curl 与 jq,无 eval/exec 等风险函数
  • ✅ 数据仅本地处理,无静默上传至远程服务器,隐私保护良好
  • ⚠️ 来源为个人开发者(T3 等级),虽经代码审查无安全问题,但建议使用前审查代码
  • ✅ 无硬编码敏感信息,权限申请与功能匹配,依赖版本锁定无已知 CVE
  • ⚠️ 需确保本地 ComfyUI 服务安全配置,避免无防护暴露至公网导致未授权访问

使用说明

ComfyUI TTS Skill 是一款基于 ComfyUI 平台集成的文本转语音工具,通过调用本地部署的 Qwen-TTS 模型服务,为用户提供高质量、可定制的语音合成能力。该技能通过命令行脚本与 ComfyUI API 交互,支持多种音色角色、情感风格和模型规模选择,适用于自动化配音、内容创作辅助及开发测试等场景。

核心用法上,用户需先配置 COMFYUI_HOST 和 COMFYUI_PORT 环境变量指向本地服务,随后通过 scripts/tts.sh 脚本传入文本内容,并可选用 --character 指定角色(如 Girl/Boy)、--style 设置情感风格(Emotional/Neutral)、--model 选择模型规模(0.5B/1.7B/3B)以及 --output 自定义输出路径。脚本内部自动构建工作流 JSON 并提交至 ComfyUI 的 /prompt 端点,通过轮询 /history 接口等待任务完成,最终返回生成的音频文件路径。

显著优点包括:首先是隐私安全性极高,所有文本处理和语音生成都发生在本地 ComfyUI 服务,无数据上传至第三方服务器;其次是灵活性,支持多维度语音定制,从基础音色的性别选择到情感表达风格,再到不同规模的模型权衡(小模型速度快、大模型质量高);第三是轻量依赖,仅需系统标准的 curl 和 jq 工具,无额外的包管理器依赖;第四是完善的错误处理机制,包含连接检测、超时重试和清晰的错误提示。

潜在缺点方面,该技能高度依赖用户自行搭建和维护 ComfyUI 服务及 Qwen-TTS 插件环境,对非技术用户有一定门槛;作为 T3 来源的个人开发者作品,缺乏知名组织背书,尽管代码审查通过但仍需用户自行承担维护风险;功能上目前仅支持本地 ComfyUI 实例,无法直接调用云端 API;此外脚本暂未实现 ComfyUI 服务的身份验证支持,若服务配置不当可能存在安全隐患。

适合的目标群体主要包括:已部署 ComfyUI 并安装 Qwen-TTS 插件的技术用户;对数据隐私敏感、拒绝使用云端 TTS 服务的内容创作者;需要批量自动化语音生成的开发者;以及希望测试和对比不同规模 TTS 模型效果的研究人员。

使用风险需关注:若将 ComfyUI 服务暴露于公网且未设置访问控制,可能面临未授权访问风险;虽然脚本对输入进行了 JSON 转义,但建议避免输入超长文本或特殊控制字符以防意外;输出目录权限配置不当可能导致文件写入失败或权限混乱;此外大模型(3B)生成耗时较长,在自动化流水线中需合理设置超时参数。

comfyui-tts 内容

文件夹图标scripts文件夹
手动下载zip · 6.4 kB
test_history.shtext/x-shellscript
请选择文件