voice

🔊 多语言智能语音合成与播报

🥥54总安装量 17评分人数 22
100% 的用户推荐

基于 Microsoft Edge TTS 引擎的多语言语音合成技能,支持直接播放与文件生成,但存在命令注入风险需谨慎使用。

C

存在明显风险,不建议直接用于敏感场景

  • 来自社区或个人来源,建议先隔离验证
  • ❌ 存在高危命令注入漏洞,输入文本未充分过滤反引号、$()、||、&& 等特殊字符,可能导致任意代码执行
  • ⚠️ 使用 exec/spawn 执行系统命令,且依赖 Microsoft Edge 在线 TTS 服务,需联网并存在隐私数据传输
  • ✅ 无动态代码加载行为,依赖版本已锁定(^1.0.0),降低供应链攻击风险
  • ✅ 文件清理操作有严格的类型限制,仅删除 .mp3/.wav/.ogg 音频文件,避免误删系统文件
  • ⚠️ 需要系统命令执行权限和文件系统访问权限,建议隔离运行并限制系统权限

使用说明

Voice Skill 是一款基于 Microsoft Edge TTS 引擎的文本转语音工具,通过集成 edge-tts 库为用户提供高质量的语音合成服务。该技能支持多种调用方式,包括直接语音播报(speak)、生成音频文件(tts)、播放本地音频(play)、查询可用音色(voices)以及自动清理临时文件(cleanup),满足从即时播放到文件存档的不同场景需求。

核心用法上,用户可通过简单的 JavaScript API 调用实现文本转语音。推荐直接使用 speak 动作进行即时播报,系统会在播放后 5 秒自动清理临时文件;也可使用 tts 动作生成 MEDIA 格式的音频链接,支持自定义语速(rate)、音量(volume)、音调(pitch)及多种语言音色(如中文的小晓、云希,英文的 Wavenet 系列)。技能内置了对中文、英文、日语、韩语等多语言的支持,并提供了文件老化清理机制(默认 1 小时)。

显著优点包括依托微软 Edge 的神经网络 TTS 技术,语音自然度高;支持丰富的参数调节和多种优质音色;自动化的临时文件管理减少了存储负担;API 设计简洁,易于集成到自动化工作流中。

然而,该技能存在明显的局限性。首先,它依赖于 Python 3.x 环境和 edge-tts 第三方库,部署前需执行 pip 安装,增加了环境复杂度。其次,所有语音合成必须通过 Microsoft Edge 的在线服务完成,必须保持网络连接,且存在数据传输隐私考量。最关键的是,当前版本存在严重的命令注入安全漏洞,输入文本仅过滤了双引号,未对反引号、$()、分号等危险字符进行有效过滤,攻击者可通过构造恶意文本执行任意系统命令。

适合的目标群体主要是个人开发者、本地自动化脚本编写者以及需要离线语音播报辅助功能的内容创作者。对于需要处理不可信用户输入的生产环境、企业级应用或高安全要求场景,当前版本完全不适用。

使用该技能可能存在的常规风险包括:命令注入导致的远程代码执行风险;依赖外部网络服务的可用性和稳定性风险;临时文件目录的读写权限风险;以及 Python 环境依赖缺失或版本不兼容导致的运行故障。建议仅在隔离环境中使用,并严格限制输入来源的可信度。

voice 内容

手动下载zip · 7.0 kB
CHANGELOG.mdtext/markdown
请选择文件