Qwen TTS 是一款基于阿里巴巴通义千问 Qwen3-TTS-12Hz-1.7B-CustomVoice 模型的本地文本转语音解决方案,专为追求隐私安全和离线能力的用户设计。该 Skill 通过命令行工具提供高品质语音合成服务,支持10种国际语言和9种差异化说话人音色,并允许通过自然语言指令精确控制情感、语调和说话风格,是 ElevenLabs 等云端服务的理想本地替代方案。
核心用法围绕 scripts/tts.py 命令行工具展开,用户可通过简单命令将文本转换为 WAV 格式音频。基础用法支持指定语言(-l)、说话人(-s)和输出路径(-o),高级功能则通过 -i 参数实现情感控制,如"Parla con entusiasmo"或"Speak with excitement"。对于开发者,该 Skill 还提供基于 FastAPI 的本地服务器模式,可通过 HTTP API 集成到现有工作流中,并兼容 OpenClaw 自动化框架,通过标准输出传递文件路径实现无缝衔接。
显著优点包括完全离线运行能力,所有语音合成在本地完成,确保敏感文本数据不会上传至云端,这对处理机密信息的企业和个人至关重要。模型支持中文、英语、日语、韩语等10种语言,且允许跨语言合成。9种预设声音涵盖不同性别、年龄和地域特色,配合指令式情感控制,可实现从温柔舒缓到激昂热情的多样表达。作为云端服务的本地替代方案,它消除了 API 调用成本和订阅费用,且在一次下载后即可永久离线使用。
潜在缺点主要体现在资源占用和部署门槛上。首次使用需下载约1.7GB的模型文件和500MB的 Python 依赖环境,对网络带宽和存储空间有一定要求。虽然支持 CPU 回退,但在无 CUDA 显卡的环境下,合成一段短语音可能需要10-30秒,实时性较差。此外,该 Skill 来源于 GitHub 个人开发者(T3 等级),虽经过安全审计,但长期维护更新和模型版本兼容性存在一定不确定性。
该 Skill 特别适合内容创作者(生成视频旁白、播客音频)、隐私敏感型用户(处理医疗、法律或商业机密文本)、多语言应用开发者(构建国际化语音交互系统)以及需要在封闭网络环境(如内网、离线设备)中部署 TTS 能力的机构。教育工作者也可利用其情感控制功能制作更具表现力的教学材料。
使用风险主要包括:首次模型下载依赖 Hugging Face 连接,若网络受限可能导致下载失败;PyPI 依赖包版本未完全锁定,可能存在未来版本兼容性问题;若启用远程模式(--remote),文本数据将传输至用户指定的外部服务器,需确保服务器可信且连接安全;GPU 内存不足时会自动回退至 CPU,但大文本量可能导致长时间占用系统资源。