free-voice

🔊 基于 Qwen3 的本地语音合成

依托本地 ComfyUI 与 Qwen3 模型的纯文档型 TTS 技能,通过标准化 API 实现高质量语音合成,确保数据隐私完全本地化。

收藏
2.4k
安装
1.2k
版本
v1.0.0
CLS 安全性认证2026-06-04
点击查看完整报告 >

使用说明

该 Skill 是一个面向本地部署环境的文本转语音(TTS)解决方案,通过与 ComfyUI 图形化工作流平台集成,利用阿里巴巴 Qwen3 模型的语音合成能力,为用户提供高质量的 AI 语音生成服务。

核心用法上,用户需要预先在本地安装 ComfyUI 及 AILab_Qwen3TTSVoiceDesign_Advanced 插件,并配置好 Qwen3 模型环境。Skill 通过向本地 8000 端口发送标准化 API 请求,触发 ComfyUI 工作流执行语音合成任务,生成的 MP3 文件保存在指定本地目录后,可作为语音消息发送。该流程支持详细的语音参数调节,包括音色指令(instruct)、采样参数(top_p、temperature)、音质(320k)等,允许用户精细控制输出效果。

显著优点在于完全的本地化处理:所有数据仅在 localhost 内网传输,不存在云端上传风险,充分保障隐私安全;依托 Qwen3 1.7B 模型,生成语音质量较高且支持俄语等多种语言;作为纯文档型 Skill,无隐藏代码执行,内容完全透明可审计。

潜在缺点包括较高的使用门槛:硬编码的 Windows 路径(如 E:\Ai\Comfy UI\output\)限制了跨平台使用;依赖外部 ComfyUI 环境和特定插件,配置复杂;需要持续维护本地服务状态,若 ComfyUI 未运行需手动启动。

适合的目标群体主要为已部署 ComfyUI 的技术用户、对数据隐私有严格要求的开发者,以及需要在本地环境批量生成语音内容的创作者。

使用风险方面,需关注本地系统资源占用(大模型推理需要 GPU/CPU 资源),硬编码路径可能因用户环境差异导致文件查找失败;此外,作为 T3 来源的第三方 Skill,建议用户验证 ComfyUI 及插件的下载来源,避免供应链攻击。

安全解读

核心用法

该 Skill 是一个桥接工具,将用户输入的文本通过 ComfyUI 的 Qwen3 TTS 节点转换为语音文件。完整流程分为四个阶段:

1. 服务启动:自动检测本地 ComfyUI 服务(localhost:8000),若未运行则通过快捷方式启动
2. 任务提交:构造 JSON 格式的 prompt 请求,包含语音指令(音色描述)、语言设置(俄语/中文等)、生成参数(temperature、top_p 等)

3. 异步等待:轮询 /history/[prompt_id] 接口直至任务完成

4. 文件交付:从指定输出目录读取 MP3 文件,以语音消息形式返回

显著优点

  • 本地部署保障隐私:所有语音生成在本地完成,文本内容不上传云端,符合 GDPR 数据最小化原则
  • 高质量语音输出:基于 Qwen3-1.7B 模型,支持 320kbps MP3 输出,音色可通过自然语言指令精细控制
  • 零外部依赖:纯 Markdown 文档型 Skill,无第三方库引入,依赖审计评分 95 分
  • 自动服务管理:内置 ComfyUI 自动启动机制,降低用户使用门槛

潜在缺点与局限性

  • 平台锁定严重:输出路径硬编码为 E:\Ai\Comfy UI\output\,仅适用于 Windows 系统,跨平台兼容性差
  • 前置条件复杂:需完整安装 ComfyUI 并配置特定节点(AILab_Qwen3TTSVoiceDesign_Advanced),技术门槛较高
  • 来源可信度有限:维护者为个人开发者(onimka),T3 等级,无组织背书,长期维护存在不确定性
  • 功能边界固定:仅支持单一声色配置(男性温暖沙哑声线),暂不支持实时音色切换或 SSML 标记

适合人群

  • AI 内容创作者:需批量生成配音素材的短视频制作者、有声书制作人
  • 本地化开发者:重视数据隐私,拒绝云端 TTS 服务的企业内部用户
  • ComfyUI 生态用户:已搭建本地 AI 工作流,希望扩展语音能力的进阶玩家

常规风险

  • 路径注入隐患:硬编码路径若被恶意替换,可能导致文件读取越界
  • 本地服务劫持:localhost:8000 若被其他进程占用,可能引发非预期行为
  • 快捷方式篡改ComfyUI.lnk 若被植入恶意程序,将构成系统级威胁

free-voice 内容

手动下载zip · 1.4 kB
SKILL.mdtext/markdown
请选择文件