free-voice

🔊 基于 Qwen3 的本地语音合成

🥥33总安装量 16评分人数 17
100% 的用户推荐

依托本地 ComfyUI 与 Qwen3 模型的纯文档型 TTS 技能,通过标准化 API 实现高质量语音合成,确保数据隐私完全本地化。

A

基本安全,请在特定环境下使用

  • 来自社区或个人来源,建议先隔离验证
  • ✅ 纯文档型资产,无隐藏代码执行风险,仅提供标准化 API 调用文档
  • ✅ 所有数据通信仅限于本地 localhost:8000,无敏感信息上传至远程服务器
  • ⚠️ Markdown 中包含启动本地 ComfyUI 的 cmd 命令示例,需确保软件来源可信
  • ⚠️ 依赖外部 ComfyUI 环境及 AILab_Qwen3TTSVoiceDesign_Advanced 插件,需用户自行配置安装
  • ✅ 无破坏性系统命令(rm/format 等),操作边界清晰可控

使用说明

该 Skill 是一个面向本地部署环境的文本转语音(TTS)解决方案,通过与 ComfyUI 图形化工作流平台集成,利用阿里巴巴 Qwen3 模型的语音合成能力,为用户提供高质量的 AI 语音生成服务。

核心用法上,用户需要预先在本地安装 ComfyUI 及 AILab_Qwen3TTSVoiceDesign_Advanced 插件,并配置好 Qwen3 模型环境。Skill 通过向本地 8000 端口发送标准化 API 请求,触发 ComfyUI 工作流执行语音合成任务,生成的 MP3 文件保存在指定本地目录后,可作为语音消息发送。该流程支持详细的语音参数调节,包括音色指令(instruct)、采样参数(top_p、temperature)、音质(320k)等,允许用户精细控制输出效果。

显著优点在于完全的本地化处理:所有数据仅在 localhost 内网传输,不存在云端上传风险,充分保障隐私安全;依托 Qwen3 1.7B 模型,生成语音质量较高且支持俄语等多种语言;作为纯文档型 Skill,无隐藏代码执行,内容完全透明可审计。

潜在缺点包括较高的使用门槛:硬编码的 Windows 路径(如 E:\Ai\Comfy UI\output\)限制了跨平台使用;依赖外部 ComfyUI 环境和特定插件,配置复杂;需要持续维护本地服务状态,若 ComfyUI 未运行需手动启动。

适合的目标群体主要为已部署 ComfyUI 的技术用户、对数据隐私有严格要求的开发者,以及需要在本地环境批量生成语音内容的创作者。

使用风险方面,需关注本地系统资源占用(大模型推理需要 GPU/CPU 资源),硬编码路径可能因用户环境差异导致文件查找失败;此外,作为 T3 来源的第三方 Skill,建议用户验证 ComfyUI 及插件的下载来源,避免供应链攻击。

free-voice 内容

手动下载zip · 1.4 kB
SKILL.mdtext/markdown
请选择文件