使用说明

核心用法

Voice Skill 是一款轻量级文本转语音工具，基于微软 Edge TTS 引擎实现。用户通过简单的 action: 'tts' 调用即可将任意文本转换为音频文件，返回 MEDIA 链接供播放。支持精细调节语音参数（voice/rate/volume/pitch），覆盖 40+ 语言的丰富声线选择，并内置临时文件自动清理机制。

显著优点

零成本高质量：Edge TTS 为微软免费提供的服务，语音自然度接近商业级 TTS
多语言覆盖：内置 en-US/en-GB/es/es-MX/fr/de 等多地区语音包
低门槛集成：仅需 pip3 install edge-tts 即可部署，无需 API Key 或网络配置
自动化运维：默认 5 分钟自动清理 + 可配置周期的手动清理

潜在缺点与局限性

依赖外部服务：实际调用微软 Edge 在线 TTS 接口，离线环境不可用
临时文件占用：高频使用可能产生大量中间文件（虽已自动清理）
参数精度受限：rate/volume/pitch 仅支持百分比/Hertz 字符串格式，精细控制不如专业 SDK
无语音合成标记：不支持 SSML 高级标签（停顿、重音、多音字处理）

适合人群

内容创作者（短视频配音）、无障碍辅助开发者、多语言学习应用、IoT 语音播报场景

常规风险

网络依赖导致的调用失败需做降级处理
临时目录需监控磁盘空间，避免自动清理失败时的堆积
商用需注意微软服务条款限制

text-to-speech tts audio-generation accessibility edge-tts voice-synthesis multi-language

Voice 内容

手动下载zip · 4.4 kB

example.jstext/javascript

请选择文件