Voice

🔊 微软 TTS 一键语音合成

media-processing榜 #8

基于 Microsoft Edge TTS 引擎的文本转语音工具,支持多语言语音、语速音调调节,适合无障碍阅读、内容创作等场景

收藏
14.2k
安装
3k
版本
1.0.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

Voice Skill 是一款轻量级文本转语音工具,基于微软 Edge TTS 引擎实现。用户通过简单的 action: 'tts' 调用即可将任意文本转换为音频文件,返回 MEDIA 链接供播放。支持精细调节语音参数(voice/rate/volume/pitch),覆盖 40+ 语言的丰富声线选择,并内置临时文件自动清理机制。

显著优点

  • 零成本高质量:Edge TTS 为微软免费提供的服务,语音自然度接近商业级 TTS
  • 多语言覆盖:内置 en-US/en-GB/es/es-MX/fr/de 等多地区语音包
  • 低门槛集成:仅需 pip3 install edge-tts 即可部署,无需 API Key 或网络配置
  • 自动化运维:默认 5 分钟自动清理 + 可配置周期的手动清理

潜在缺点与局限性

  • 依赖外部服务:实际调用微软 Edge 在线 TTS 接口,离线环境不可用
  • 临时文件占用:高频使用可能产生大量中间文件(虽已自动清理)
  • 参数精度受限:rate/volume/pitch 仅支持百分比/Hertz 字符串格式,精细控制不如专业 SDK
  • 无语音合成标记:不支持 SSML 高级标签(停顿、重音、多音字处理)

适合人群

内容创作者(短视频配音)、无障碍辅助开发者、多语言学习应用、IoT 语音播报场景

常规风险

  • 网络依赖导致的调用失败需做降级处理
  • 临时目录需监控磁盘空间,避免自动清理失败时的堆积
  • 商用需注意微软服务条款限制

Voice 内容

手动下载zip · 4.4 kB
example.jstext/javascript
请选择文件