使用说明

核心用法

Voice Skill 围绕 edge-tts 库构建，提供三种主要交互模式：

1. `speak` 动作（推荐）：即时文字转语音并直接播放，音频文件在播放后 5 秒自动清理，无需关心文件管理。
2. `tts` 动作：生成音频文件并返回 MEDIA 链接，支持 playImmediately 参数即时播放，也可通过 options 自定义音色（voice）、语速（rate）、音量（volume）和音调（pitch）。
3. 辅助动作：voices 列出所有可用发音人；cleanup 按时间阈值清理临时文件；play 直接播放已有音频文件。

临时文件默认存储于 temp 目录，1 小时后自动清理，平衡了即用即走与持久化需求。

显著优点

零配置开箱即用：仅需 pip3 install edge-tts 即可运行，无需 Azure 订阅或 API Key。
丰富的语音选择：内置 100+ 神经网络语音，覆盖中、英、日、韩等主流语种，支持 Xiaoxiao、Yunxi 等中文特色音色。
灵活的音频控制：支持 SSML 级别的 rate、volume、pitch 微调，满足情感化、场景化播报需求。
资源管理友好：自动清理机制防止磁盘堆积，speak 动作的 5 秒延迟清理尤其适合高频短句场景。

潜在缺点与局限性

网络依赖：Edge TTS 依赖 Microsoft 在线服务，离线环境或网络受限时无法使用。
音质与延迟：边缘 TTS 为免费服务，音质略低于 Azure 付费版；首包合成需 200-500ms，不适合超低延迟实时对话。
临时文件风险：虽然默认自动清理，但异常中断可能导致临时文件残留，需定期手动 cleanup。
平台限制：基于 Python 运行时，非 Python 环境需额外封装；部分 ARM 架构设备可能遇到依赖兼容问题。

适合人群

需要快速搭建语音播报原型、IoT 语音助手、无障碍阅读工具的开发者。
预算有限、不愿维护 Azure 订阅的个人项目或中小企业。
对语音自然度要求适中、可接受轻微网络延迟的场景。

常规风险

隐私合规：文本内容经网络传输至 Microsoft 服务器，敏感信息（如个人身份信息、金融数据）不建议直接使用，需评估数据出境合规性。
服务稳定性：Edge TTS 为微软服务，接口变更或限速可能影响可用性，生产环境建议设置降级策略（如本地 TTS 备份）。
依赖维护：edge-tts 为社区封装库，更新频率与官方 API 同步存在滞后风险，需关注版本兼容性。

安全解读

核心用法

Voice Skill 提供基于 edge-tts 的文本转语音(TTS)功能，支持两种主要模式：

Direct Speaking（推荐）：action: 'speak' 直接播放语音，5秒后自动清理临时文件，无需手动管理
File-based TTS：action: 'tts' 生成音频文件返回 MEDIA 链接，支持 playImmediately 即时播放及自定义语音参数（voice/rate/volume/pitch）

附加功能包括列出可用语音(voices)、播放现有文件(play)、清理过期临时文件(cleanup)。支持中文、英文、日语、韩语等多语言神经网络语音。

显著优点

1. 多语言语音质量：依托 Microsoft Edge TTS 引擎，中文(XiaoxiaoNeural等)、英文神经网络语音自然度高
2. 零配置易用性：speak 模式开箱即用，自动处理文件生命周期
3. 灵活参数控制：支持语速、音量、音高微调，满足个性化需求
4. 跨平台兼容：自动检测 afplay(macOS)/aplay(Linux)/PowerShell(Windows) 系统播放器
5. 依赖安全可靠：edge-tts 为成熟开源项目，无已知 CVE 漏洞

潜在缺点与局限性

命令注入风险：使用 child_process.exec 拼接命令字符串，虽对双引号转义但未处理 $、` `、;` 等特殊字符
网络依赖：必须连接 Microsoft TTS 服务，离线环境不可用
Python 运行时依赖：需本地安装 Python 3.x 及 edge-tts 包
临时目录耦合：使用 __dirname/../../temp 相对路径，目录结构变更时可能异常
T3 来源可信度：个人开发者维护，需自行审查代码更新

适合人群

需要快速集成中文/多语言 TTS 的自动化工作流用户
对语音自然度有要求、能接受云服务的场景
具备基础代码审查能力、可评估注入风险的技术用户

常规风险

输入安全风险：未对 text 内容做长度限制和敏感字符过滤，极端情况下可能利用命令拼接
路径遍历可能：play action 的 filePath 未限制可访问目录
隐私考量：文本内容发送至 Microsoft 服务器处理

text-to-speech voice-synthesis edge-tts media-playback multilingual automation

Voice 内容

手动下载zip · 7.0 kB

CHANGELOG.mdtext/markdown

请选择文件