Sapi Tts

🗣️ Windows 原生语音,零 GPU 秒速合成

Windows 原生 SAPI5 语音合成,零 GPU 占用、即时生成,自动优选 Neural 语音,适合轻量化 TTS 需求。

收藏
11.5k
安装
2.7k
版本
1.0.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

sapi-tts 是一款基于 Windows 内置 SAPI5 语音引擎的轻量化文本转语音工具,通过 PowerShell 脚本实现零配置调用。用户只需执行 \tts.ps1 "文本内容" 即可生成 WAV 音频文件,无需安装任何第三方 TTS 引擎或依赖 GPU 加速。

该工具支持多参数精细化控制:-Language 自动匹配语言区域设置(内置 fr/en/de/es/it 等映射),-VoiceName 允许部分匹配语音名称,-Rate 调节语速(-10 至 +10),-Output 指定输出路径。核心亮点在于 Select-BestVoice 函数的智能优先级策略:优先匹配指定名称 → 同区域 Neural 语音 → 同区域任意语音 → 任意 Neural 语音 → 首个可用语音,确保最佳音质体验。

显著优点

  • 零资源开销:纯 CPU 运算,无 GPU 依赖,适合低配置设备或长文本批量生成
  • 即时响应:本地合成延迟低于 1 秒,远快于云端 TTS API
  • 智能适配:自动识别 Windows 10/11 的 Neural 语音(Win11 原生支持,Win10 可通过 NaturalVoiceSAPIAdapter 扩展)
  • 无缝集成:输出路径自动写入 .openclaw/workspace/tts 目录,便于下游工作流调用
  • 隐私安全:文本完全本地处理,无网络传输风险

潜在局限

  • 平台锁定:仅限 Windows 10/11,跨平台兼容性为零
  • 语音质量天花板:即便 Neural 语音,情感表达与自然度仍落后于 Azure AI Speech、ElevenLabs 等云端方案
  • 语言覆盖有限:依赖系统预装语音包,小语种支持不足
  • 无流式输出:必须等待完整 WAV 生成,无法实时播放长文本
  • 格式单一:仅输出 WAV,需额外转码为 MP3/OGG

适合人群

  • 需要离线、隐私优先 TTS 的开发者与内容创作者
  • 配置有限、无法运行 GPU 密集型 TTS 模型的用户
  • 追求快速原型验证,对音质要求不极致的场景(通知播报、辅助阅读、测试数据生成)
  • 已深度使用 Windows 生态,熟悉 PowerShell 的技术用户

常规风险

  • 依赖系统组件:若 Windows Speech 功能被精简或损坏,工具完全失效
  • 语音包管理混乱:第三方 NaturalVoiceSAPIAdapter 可能引入不稳定的非官方语音源
  • 速率调节失真:极端 -Rate 值可能导致语音机械感增强
  • 路径权限问题:自动创建目录需用户配置文件写入权限,受限环境可能失败

Sapi Tts 内容

手动下载zip · 2.5 kB
SKILL.mdtext/markdown
请选择文件