核心用法
TTS через ComfyUI 是一个将阿里巴巴通义千问 Qwen3 语音合成模型集成到 ComfyUI 工作流中的本地部署方案。用户通过构造特定的 JSON prompt,调用 AILab_Qwen3TTSVoiceDesign_Advanced 节点,实现从文本到语音的转换。关键参数包括:
- instruct: 音色描述(如"沙哑温暖的男性嗓音,自信友好")
- model_size: 模型规格(1.7B/其他)
- language: 目标语言(支持俄语等)
- generation参数: temperature、top_p、top_k 控制生成多样性
流程为:启动 ComfyUI → 轮询检测服务就绪 → 提交 prompt → 异步等待任务完成 → 从指定目录提取 MP3 → 以语音消息形式输出。
显著优点
1. 本地部署,数据隐私性强:音频生成完全在本地完成,敏感文本不上传云端
2. 音色可定制:通过自然语言描述即可调整说话人特征,无需训练声纹模型
3. 开源生态兼容:依托 ComfyUI 的节点化工作流,可扩展音频后处理链
4. 高质量输出:支持 320k MP3 保存,满足专业播客/配音需求
潜在缺点与局限
- 环境依赖重:需完整 ComfyUI 环境 + 特定插件 + Qwen3 模型,部署门槛高
- Windows 路径硬编码:输出目录固定为
E:\Ai\Comfy UI\output\,跨平台兼容性差 - 无自动模型管理:未提及模型下载、版本更新机制,维护成本由用户承担
- 单点故障风险:依赖本地 8000 端口服务,崩溃后需手动重启
- 俄语支持未验证:虽声明支持俄语,但未提供实际效果基准测试
适合人群
- 已熟悉 ComfyUI 生态的技术用户
- 对数据隐私有严格要求的内容创作者(播客、有声书制作)
- 需要批量生成定制化语音的本地化 AI 开发者
常规风险
- 路径暴露风险:硬编码本地绝对路径可能泄露用户系统结构
- 服务可用性:ComfyUI 启动耗时较长,首次使用体验不佳
- 模型版权:Qwen3 商用需确认阿里通义千问的许可协议