qwen3-tts-instruct

🔊 阿里云多情绪实时语音合成

🥥57总安装量 12评分人数 9
100% 的用户推荐

基于阿里云 DashScope 官方 SDK 的多语言 TTS 技能,支持 30+ 情绪预设与 35 种声音角色,提供低延迟流式语音合成服务。

A

基本安全,请在特定环境下使用

  • 来自社区或个人来源,建议先隔离验证
  • ✅ 代码无危险函数,通过 exec/eval 与命令注入检测,依赖管理规范
  • ✅ 使用阿里云官方 DashScope SDK,无已知 CVE 漏洞,依赖来源可靠
  • ✅ 数据隐私处理透明,明确告知用户文本将发送至阿里云进行处理
  • ⚠️ 需将用户文本数据实时发送至阿里云 DashScope 云端进行 TTS 合成处理
  • ⚠️ 需用户自行配置 DASHSCOPE_API_KEY 并确保网络可访问阿里云 WebSocket 服务

使用说明

qwen3-tts-instruct 是一款基于阿里云 DashScope 平台的文本转语音(TTS)技能,专为需要高质量、多情绪语音合成的 AI 应用场景设计。该技能封装了 Qwen3 TTS Instruct 模型,通过 WebSocket 实现低延迟的实时流式音频输出,支持 30 余种情绪预设和 35 种不同风格的声音角色,覆盖中、英、日、韩等 10 种主流语言。

核心用法:用户通过调用 Python 脚本并传入文本内容,可选择特定声音角色(如 Cherry、Serena 等)、情绪状态(如 gentle、happy、shy 等)、输出格式(mp3/wav/opus)及目标语言。技能采用指令式交互设计,支持"角色扮演"模式(如 maid、yandere、ojousama 等),并能根据对话上下文智能选择情绪反应,实现高度拟人化的语音交互。

显著优点:首先,情绪表达能力突出,提供 30+ 精细化的情绪预设,从基础情绪(angry、happy、sad)到复杂互动状态(jealous、teasing、possessive),满足角色扮演和情感化 AI 需求。其次,声音库丰富,包含 35 种女性声音,涵盖普通话、英语、日语、韩语及上海、四川、粤语等方言。第三,技术架构先进,基于 WebSocket 的实时流传输确保低延迟,支持 PCM、WAV、MP3、Opus 多种格式,特别针对 Telegram 等社交平台优化。第四,多语言支持完善,可自动检测或手动指定语言,并提供内置翻译指引确保文本与目标语言匹配。

潜在缺点:该技能完全依赖阿里云 DashScope 云端服务,无法离线使用,在网络不稳定环境下体验受限。其次,部分高级声音角色(如 Jennifer、Ono Anna 等)仅支持 Flash 模型,无法使用情绪预设功能。此外,作为 T3 来源的社区项目,长期维护更新存在不确定性,且未明确标注开源许可证。

适合目标群体:主要面向 AI 对话机器人开发者、虚拟主播/VTuber 内容创作者、有声读物制作者、游戏角色配音需求方,以及需要多语言语音合成的国际化产品团队。特别适合构建情感化 AI 助手、沉浸式角色扮演应用和实时语音交互系统。

使用风险:首要风险是数据隐私,所有文本需传输至阿里云服务器处理,敏感信息需谨慎输入。其次存在网络依赖风险,WebSocket 连接可能因网络波动中断。第三,API 调用产生云服务费用,需合理控制调用频率。第四,需妥善保管 DASHSCOPE_API_KEY,避免泄露导致资源滥用。

qwen3-tts-instruct 内容

文件夹图标scripts文件夹
手动下载zip · 14.1 kB
setup.shtext/x-shellscript
请选择文件