qwen-tts - 本地离线多语言AI语音合成

使用说明

Qwen TTS 是一款基于阿里巴巴通义千问 Qwen3-TTS-12Hz-1.7B-CustomVoice 模型的本地文本转语音解决方案，专为追求隐私安全和离线能力的用户设计。该 Skill 通过命令行工具提供高品质语音合成服务，支持10种国际语言和9种差异化说话人音色，并允许通过自然语言指令精确控制情感、语调和说话风格，是 ElevenLabs 等云端服务的理想本地替代方案。

核心用法围绕 scripts/tts.py 命令行工具展开，用户可通过简单命令将文本转换为 WAV 格式音频。基础用法支持指定语言（-l）、说话人（-s）和输出路径（-o），高级功能则通过 -i 参数实现情感控制，如"Parla con entusiasmo"或"Speak with excitement"。对于开发者，该 Skill 还提供基于 FastAPI 的本地服务器模式，可通过 HTTP API 集成到现有工作流中，并兼容 OpenClaw 自动化框架，通过标准输出传递文件路径实现无缝衔接。

显著优点包括完全离线运行能力，所有语音合成在本地完成，确保敏感文本数据不会上传至云端，这对处理机密信息的企业和个人至关重要。模型支持中文、英语、日语、韩语等10种语言，且允许跨语言合成。9种预设声音涵盖不同性别、年龄和地域特色，配合指令式情感控制，可实现从温柔舒缓到激昂热情的多样表达。作为云端服务的本地替代方案，它消除了 API 调用成本和订阅费用，且在一次下载后即可永久离线使用。

潜在缺点主要体现在资源占用和部署门槛上。首次使用需下载约1.7GB的模型文件和500MB的 Python 依赖环境，对网络带宽和存储空间有一定要求。虽然支持 CPU 回退，但在无 CUDA 显卡的环境下，合成一段短语音可能需要10-30秒，实时性较差。此外，该 Skill 来源于 GitHub 个人开发者（T3 等级），虽经过安全审计，但长期维护更新和模型版本兼容性存在一定不确定性。

该 Skill 特别适合内容创作者（生成视频旁白、播客音频）、隐私敏感型用户（处理医疗、法律或商业机密文本）、多语言应用开发者（构建国际化语音交互系统）以及需要在封闭网络环境（如内网、离线设备）中部署 TTS 能力的机构。教育工作者也可利用其情感控制功能制作更具表现力的教学材料。

使用风险主要包括：首次模型下载依赖 Hugging Face 连接，若网络受限可能导致下载失败；PyPI 依赖包版本未完全锁定，可能存在未来版本兼容性问题；若启用远程模式（--remote），文本数据将传输至用户指定的外部服务器，需确保服务器可信且连接安全；GPU 内存不足时会自动回退至 CPU，但大文本量可能导致长时间占用系统资源。

content-media productivity api automation

qwen-tts 内容

references文件夹

scripts文件夹

手动下载zip · 15.5 kB

README.mdtext/markdown

请选择文件