使用说明

qwen3-tts-instruct 是一款基于阿里云 DashScope 平台的文本转语音（TTS）技能，专为需要高质量、多情绪语音合成的 AI 应用场景设计。该技能封装了 Qwen3 TTS Instruct 模型，通过 WebSocket 实现低延迟的实时流式音频输出，支持 30 余种情绪预设和 35 种不同风格的声音角色，覆盖中、英、日、韩等 10 种主流语言。

核心用法：用户通过调用 Python 脚本并传入文本内容，可选择特定声音角色（如 Cherry、Serena 等）、情绪状态（如 gentle、happy、shy 等）、输出格式（mp3/wav/opus）及目标语言。技能采用指令式交互设计，支持"角色扮演"模式（如 maid、yandere、ojousama 等），并能根据对话上下文智能选择情绪反应，实现高度拟人化的语音交互。

显著优点：首先，情绪表达能力突出，提供 30+ 精细化的情绪预设，从基础情绪（angry、happy、sad）到复杂互动状态（jealous、teasing、possessive），满足角色扮演和情感化 AI 需求。其次，声音库丰富，包含 35 种女性声音，涵盖普通话、英语、日语、韩语及上海、四川、粤语等方言。第三，技术架构先进，基于 WebSocket 的实时流传输确保低延迟，支持 PCM、WAV、MP3、Opus 多种格式，特别针对 Telegram 等社交平台优化。第四，多语言支持完善，可自动检测或手动指定语言，并提供内置翻译指引确保文本与目标语言匹配。

潜在缺点：该技能完全依赖阿里云 DashScope 云端服务，无法离线使用，在网络不稳定环境下体验受限。其次，部分高级声音角色（如 Jennifer、Ono Anna 等）仅支持 Flash 模型，无法使用情绪预设功能。此外，作为 T3 来源的社区项目，长期维护更新存在不确定性，且未明确标注开源许可证。

适合目标群体：主要面向 AI 对话机器人开发者、虚拟主播/VTuber 内容创作者、有声读物制作者、游戏角色配音需求方，以及需要多语言语音合成的国际化产品团队。特别适合构建情感化 AI 助手、沉浸式角色扮演应用和实时语音交互系统。

使用风险：首要风险是数据隐私，所有文本需传输至阿里云服务器处理，敏感信息需谨慎输入。其次存在网络依赖风险，WebSocket 连接可能因网络波动中断。第三，API 调用产生云服务费用，需合理控制调用频率。第四，需妥善保管 DASHSCOPE_API_KEY，避免泄露导致资源滥用。

安全解读

核心用法

qwen3-tts-instruct 是阿里云百炼平台基于 Qwen3 的实时文本转语音(TTS)技能，通过 WebSocket 实现低延迟流式音频生成。核心调用方式为 Python 脚本执行，需配置 DASHSCOPE_API_KEY 环境变量。

基础调用结构：

python tts.py [--voice 角色] [--mood 情绪] [--format 格式] [--language 语言] "文本内容"

关键特性：

35种女性角色声线：从知性温柔的「四月」(Maia) 到虚拟女友风格的「千雪」(Chelsie)，覆盖中文、英语、日语、韩语、粤语、沪语、川渝方言等
35+情绪预设：涵盖基础情绪（gentle/angry/sad）、互动情绪（teasing/jealous/begging）、角色扮演（maid/yandere/tsundere）及特殊效果（asmr/singing）
双模型架构：qwen3-tts-instruct-flash-realtime（支持情绪控制，延迟较高）与 qwen3-tts-flash-realtime（纯Flash，低延迟）
多格式输出：pcm/wav/mp3/opus（Telegram语音消息专用）

AI 使用指南要点：
1. 情绪选择逻辑：--mood 代表AI自身的情感反应，而非用户情绪。例如用户愤怒时，AI应选择 nervous 或 submissive 而非 angry
2. 强制翻译要求：生成非中文语音时，输入文本必须已翻译为目标语言。TTS不执行翻译，仅朗读传入文本

显著优点

| 维度 | 优势 |

|------|------|

| **声线丰富度** | 35种精品角色声线，含方言、外语及性格差异化设计（病娇、傲娇、御姐、萝莉等） |

| **情绪颗粒度** | 35+细分情绪标签，业界罕见的角色扮演与ASMR特效支持 |

| **实时性能** | WebSocket 流式传输，支持实时对话场景 |

| **语言覆盖** | 中英日韩法德俄意西葡10种语言，外加3种中国方言 |

| **生态整合** | 原生支持Telegram opus格式，开箱即用 |

潜在局限

| 局限 | 说明 |

|------|------|

| **性别单一** | 仅提供女性声线，无男性/中性选项 |

| **模型分流** | 情绪功能仅限 Instruct 模型，追求低延迟需牺牲情绪控制 |

| **商业依赖** | 强绑定阿里云 DashScope 服务，无法私有化部署 |

| **翻译负担** | 多语言场景需调用方自行处理翻译，增加集成复杂度 |

| **情绪误用风险** | 指南强调情绪代表AI自身反应，但实际易与"匹配用户情绪"混淆 |

适合人群

AI 角色扮演/虚拟陪伴开发者：需丰富情绪表达与角色声线
多语言内容创作者：需中日韩及欧洲语言的高质量TTS
实时对话应用：WebSocket低延迟适合语音助手、直播等场景
Telegram Bot开发者：原生 opus 格式支持

常规风险

| 风险类型 | 等级 | 说明 |

|----------|------|------|

| **数据隐私** | 中 | 文本内容发送至阿里云处理，需遵守其隐私政策 |

| **API密钥管理** | 中 | 需安全存储 `DASHSCOPE_API_KEY`，避免泄露 |

| **服务可用性** | 低 | 依赖阿里云云服务，存在网络中断或限流可能 |

| **成本控制** | 中 | 按调用量计费，高频场景需关注账单 |

| **内容合规** | 中 | 情绪标签含 yandere/possessive 等敏感角色，需符合平台规范 |

tts audio content-media voice api ai aliyun content-creation

qwen3-tts-instruct 内容

scripts文件夹

手动下载zip · 14.1 kB

setup.shtext/x-shellscript

请选择文件