Free voice from Comfy UI + Qwen3 TTS

🎙️ 本地 AI 语音合成工作流

基于 ComfyUI 的 Qwen3 TTS 语音合成工具,支持高质量俄语语音生成与音色定制,需本地部署环境。

收藏
8.8k
安装
2.3k
版本
1.0.0
CLS 安全性认证2026-06-04
点击查看完整报告 >

使用说明

核心用法

TTS через ComfyUI 是一个将阿里巴巴通义千问 Qwen3 语音合成模型集成到 ComfyUI 工作流中的本地部署方案。用户通过构造特定的 JSON prompt,调用 AILab_Qwen3TTSVoiceDesign_Advanced 节点,实现从文本到语音的转换。关键参数包括:

  • instruct: 音色描述(如"沙哑温暖的男性嗓音,自信友好")
  • model_size: 模型规格(1.7B/其他)
  • language: 目标语言(支持俄语等)
  • generation参数: temperature、top_p、top_k 控制生成多样性

流程为:启动 ComfyUI → 轮询检测服务就绪 → 提交 prompt → 异步等待任务完成 → 从指定目录提取 MP3 → 以语音消息形式输出。

显著优点

1. 本地部署,数据隐私性强:音频生成完全在本地完成,敏感文本不上传云端
2. 音色可定制:通过自然语言描述即可调整说话人特征,无需训练声纹模型

3. 开源生态兼容:依托 ComfyUI 的节点化工作流,可扩展音频后处理链

4. 高质量输出:支持 320k MP3 保存,满足专业播客/配音需求

潜在缺点与局限

  • 环境依赖重:需完整 ComfyUI 环境 + 特定插件 + Qwen3 模型,部署门槛高
  • Windows 路径硬编码:输出目录固定为 E:\Ai\Comfy UI\output\,跨平台兼容性差
  • 无自动模型管理:未提及模型下载、版本更新机制,维护成本由用户承担
  • 单点故障风险:依赖本地 8000 端口服务,崩溃后需手动重启
  • 俄语支持未验证:虽声明支持俄语,但未提供实际效果基准测试

适合人群

  • 已熟悉 ComfyUI 生态的技术用户
  • 对数据隐私有严格要求的内容创作者(播客、有声书制作)
  • 需要批量生成定制化语音的本地化 AI 开发者

常规风险

  • 路径暴露风险:硬编码本地绝对路径可能泄露用户系统结构
  • 服务可用性:ComfyUI 启动耗时较长,首次使用体验不佳
  • 模型版权:Qwen3 商用需确认阿里通义千问的许可协议

安全解读

核心用法

该 Skill 通过调用本地运行的 ComfyUI 节点 AILab_Qwen3TTSVoiceDesign_Advanced,利用阿里云 Qwen3-TTS 模型生成俄语语音。用户仅需提供文本,Skill 会自动完成:检测并启动 ComfyUI 服务 → 发送 TTS 请求 → 轮询任务状态 → 定位输出文件 → 以语音消息形式返回。

关键参数可高度定制:支持 1.7B 模型规模选择、音色指令(instruct)描述说话人性别、情感、语速特征,以及 temperature/top_p/top_k 等采样参数精细调节输出随机性。

显著优点

1. 本地化隐私:所有处理在本地 ComfyUI 完成,文本不经过第三方云服务,敏感内容适用
2. 音色可控性强:通过自然语言描述即可定义说话风格(如 "略带沙哑的温暖男声,自信友好"),无需训练

3. 输出质量高:320k MP3 编码、bf16 精度、2048 token 上限,满足播客/配音级需求

4. 零成本推理:依托开源 Qwen3 模型,无按量计费焦虑

潜在缺点与局限

  • 环境依赖严苛:硬编码 Windows 路径(E:\Ai\Comfy UI\output\),无法跨平台;需预先配置 ComfyUI 与模型
  • 启动延迟明显:冷启动需等待 ComfyUI 就绪,首次响应可能达数十秒
  • 无输入验证:文档未说明参数边界,不当 temperature/top_p 可能导致输出异常
  • 隐私合规模糊:未声明用户文本是否留存日志

适合人群

  • 已搭建 ComfyUI 环境的 Windows 技术用户
  • 对语音风格有精细要求的俄语内容创作者(播客、有声书、游戏配音)
  • 重视数据隐私、拒绝云端 TTS 的敏感场景用户

常规风险

| 风险项 | 说明 |
|--------|------|
| 外部程序执行 | 自动调用 `cmd` 启动 ComfyUI,若快捷方式被篡改可能执行恶意程序 |
| 路径遍历隐患 | 硬编码输出目录,若权限配置不当可能导致文件覆盖 |
| 网络监听暴露 | ComfyUI 默认 HTTP 无 TLS,局域网内存在中间人嗅探风险 |
| 模型幻觉 | Qwen3-TTS 可能对极长文本或特殊字符产生发音异常 |

Free voice from Comfy UI + Qwen3 TTS 内容

手动下载zip · 1.3 kB
SKILL.mdtext/markdown
请选择文件