核心用法
sapi-tts 是一款基于 Windows 内置 SAPI5 语音引擎的轻量化文本转语音工具,通过 PowerShell 脚本实现零配置调用。用户只需执行 \tts.ps1 "文本内容" 即可生成 WAV 音频文件,无需安装任何第三方 TTS 引擎或依赖 GPU 加速。
该工具支持多参数精细化控制:-Language 自动匹配语言区域设置(内置 fr/en/de/es/it 等映射),-VoiceName 允许部分匹配语音名称,-Rate 调节语速(-10 至 +10),-Output 指定输出路径。核心亮点在于 Select-BestVoice 函数的智能优先级策略:优先匹配指定名称 → 同区域 Neural 语音 → 同区域任意语音 → 任意 Neural 语音 → 首个可用语音,确保最佳音质体验。
显著优点
- 零资源开销:纯 CPU 运算,无 GPU 依赖,适合低配置设备或长文本批量生成
- 即时响应:本地合成延迟低于 1 秒,远快于云端 TTS API
- 智能适配:自动识别 Windows 10/11 的 Neural 语音(Win11 原生支持,Win10 可通过 NaturalVoiceSAPIAdapter 扩展)
- 无缝集成:输出路径自动写入
.openclaw/workspace/tts目录,便于下游工作流调用 - 隐私安全:文本完全本地处理,无网络传输风险
潜在局限
- 平台锁定:仅限 Windows 10/11,跨平台兼容性为零
- 语音质量天花板:即便 Neural 语音,情感表达与自然度仍落后于 Azure AI Speech、ElevenLabs 等云端方案
- 语言覆盖有限:依赖系统预装语音包,小语种支持不足
- 无流式输出:必须等待完整 WAV 生成,无法实时播放长文本
- 格式单一:仅输出 WAV,需额外转码为 MP3/OGG
适合人群
- 需要离线、隐私优先 TTS 的开发者与内容创作者
- 配置有限、无法运行 GPU 密集型 TTS 模型的用户
- 追求快速原型验证,对音质要求不极致的场景(通知播报、辅助阅读、测试数据生成)
- 已深度使用 Windows 生态,熟悉 PowerShell 的技术用户
常规风险
- 依赖系统组件:若 Windows Speech 功能被精简或损坏,工具完全失效
- 语音包管理混乱:第三方 NaturalVoiceSAPIAdapter 可能引入不稳定的非官方语音源
- 速率调节失真:极端
-Rate值可能导致语音机械感增强 - 路径权限问题:自动创建目录需用户配置文件写入权限,受限环境可能失败