核心用法
Voice Skill 是一款轻量级文本转语音工具,基于微软 Edge TTS 引擎实现。用户通过简单的 action: 'tts' 调用即可将任意文本转换为音频文件,返回 MEDIA 链接供播放。支持精细调节语音参数(voice/rate/volume/pitch),覆盖 40+ 语言的丰富声线选择,并内置临时文件自动清理机制。
显著优点
- 零成本高质量:Edge TTS 为微软免费提供的服务,语音自然度接近商业级 TTS
- 多语言覆盖:内置 en-US/en-GB/es/es-MX/fr/de 等多地区语音包
- 低门槛集成:仅需
pip3 install edge-tts即可部署,无需 API Key 或网络配置 - 自动化运维:默认 5 分钟自动清理 + 可配置周期的手动清理
潜在缺点与局限性
- 依赖外部服务:实际调用微软 Edge 在线 TTS 接口,离线环境不可用
- 临时文件占用:高频使用可能产生大量中间文件(虽已自动清理)
- 参数精度受限:rate/volume/pitch 仅支持百分比/Hertz 字符串格式,精细控制不如专业 SDK
- 无语音合成标记:不支持 SSML 高级标签(停顿、重音、多音字处理)
适合人群
内容创作者(短视频配音)、无障碍辅助开发者、多语言学习应用、IoT 语音播报场景
常规风险
- 网络依赖导致的调用失败需做降级处理
- 临时目录需监控磁盘空间,避免自动清理失败时的堆积
- 商用需注意微软服务条款限制