Voice

🔊 Edge TTS 多语言语音合成

基于 Microsoft Edge TTS 引擎的文字转语音工具,支持多语言、实时播放与自动清理,适合语音交互场景。

收藏
11.3k
安装
3k
版本
1.0.1
CLS 安全性认证2026-06-03
点击查看完整报告 >

使用说明

核心用法

Voice Skill 围绕 edge-tts 库构建,提供三种主要交互模式:

1. `speak` 动作(推荐):即时文字转语音并直接播放,音频文件在播放后 5 秒自动清理,无需关心文件管理。
2. `tts` 动作:生成音频文件并返回 MEDIA 链接,支持 playImmediately 参数即时播放,也可通过 options 自定义音色(voice)、语速(rate)、音量(volume)和音调(pitch)。

3. 辅助动作voices 列出所有可用发音人;cleanup 按时间阈值清理临时文件;play 直接播放已有音频文件。

临时文件默认存储于 temp 目录,1 小时后自动清理,平衡了即用即走与持久化需求。

显著优点

  • 零配置开箱即用:仅需 pip3 install edge-tts 即可运行,无需 Azure 订阅或 API Key。
  • 丰富的语音选择:内置 100+ 神经网络语音,覆盖中、英、日、韩等主流语种,支持 Xiaoxiao、Yunxi 等中文特色音色。
  • 灵活的音频控制:支持 SSML 级别的 rate、volume、pitch 微调,满足情感化、场景化播报需求。
  • 资源管理友好:自动清理机制防止磁盘堆积,speak 动作的 5 秒延迟清理尤其适合高频短句场景。

潜在缺点与局限性

  • 网络依赖:Edge TTS 依赖 Microsoft 在线服务,离线环境或网络受限时无法使用。
  • 音质与延迟:边缘 TTS 为免费服务,音质略低于 Azure 付费版;首包合成需 200-500ms,不适合超低延迟实时对话。
  • 临时文件风险:虽然默认自动清理,但异常中断可能导致临时文件残留,需定期手动 cleanup
  • 平台限制:基于 Python 运行时,非 Python 环境需额外封装;部分 ARM 架构设备可能遇到依赖兼容问题。

适合人群

  • 需要快速搭建语音播报原型、IoT 语音助手、无障碍阅读工具的开发者。
  • 预算有限、不愿维护 Azure 订阅的个人项目或中小企业。
  • 对语音自然度要求适中、可接受轻微网络延迟的场景。

常规风险

  • 隐私合规:文本内容经网络传输至 Microsoft 服务器,敏感信息(如个人身份信息、金融数据)不建议直接使用,需评估数据出境合规性。
  • 服务稳定性:Edge TTS 为微软服务,接口变更或限速可能影响可用性,生产环境建议设置降级策略(如本地 TTS 备份)。
  • 依赖维护edge-tts 为社区封装库,更新频率与官方 API 同步存在滞后风险,需关注版本兼容性。

安全解读

核心用法

Voice Skill 提供基于 edge-tts 的文本转语音(TTS)功能,支持两种主要模式:

  • Direct Speaking(推荐)action: 'speak' 直接播放语音,5秒后自动清理临时文件,无需手动管理
  • File-based TTSaction: 'tts' 生成音频文件返回 MEDIA 链接,支持 playImmediately 即时播放及自定义语音参数(voice/rate/volume/pitch)

附加功能包括列出可用语音(voices)、播放现有文件(play)、清理过期临时文件(cleanup)。支持中文、英文、日语、韩语等多语言神经网络语音。

显著优点

1. 多语言语音质量:依托 Microsoft Edge TTS 引擎,中文(XiaoxiaoNeural等)、英文神经网络语音自然度高
2. 零配置易用性speak 模式开箱即用,自动处理文件生命周期

3. 灵活参数控制:支持语速、音量、音高微调,满足个性化需求

4. 跨平台兼容:自动检测 afplay(macOS)/aplay(Linux)/PowerShell(Windows) 系统播放器

5. 依赖安全可靠edge-tts 为成熟开源项目,无已知 CVE 漏洞

潜在缺点与局限性

  • 命令注入风险:使用 child_process.exec 拼接命令字符串,虽对双引号转义但未处理 $、` `;` 等特殊字符
  • 网络依赖:必须连接 Microsoft TTS 服务,离线环境不可用
  • Python 运行时依赖:需本地安装 Python 3.x 及 edge-tts
  • 临时目录耦合:使用 __dirname/../../temp 相对路径,目录结构变更时可能异常
  • T3 来源可信度:个人开发者维护,需自行审查代码更新

适合人群

  • 需要快速集成中文/多语言 TTS 的自动化工作流用户
  • 对语音自然度有要求、能接受云服务的场景
  • 具备基础代码审查能力、可评估注入风险的技术用户

常规风险

  • 输入安全风险:未对 text 内容做长度限制和敏感字符过滤,极端情况下可能利用命令拼接
  • 路径遍历可能play action 的 filePath 未限制可访问目录
  • 隐私考量:文本内容发送至 Microsoft 服务器处理

Voice 内容

手动下载zip · 7.0 kB
CHANGELOG.mdtext/markdown
请选择文件