使用说明

核心用法

sapi-tts 是一款基于 Windows 内置 SAPI5 语音引擎的轻量化文本转语音工具，通过 PowerShell 脚本实现零配置调用。用户只需执行 \tts.ps1 "文本内容" 即可生成 WAV 音频文件，无需安装任何第三方 TTS 引擎或依赖 GPU 加速。

该工具支持多参数精细化控制：-Language 自动匹配语言区域设置（内置 fr/en/de/es/it 等映射），-VoiceName 允许部分匹配语音名称，-Rate 调节语速（-10 至 +10），-Output 指定输出路径。核心亮点在于 Select-BestVoice 函数的智能优先级策略：优先匹配指定名称 → 同区域 Neural 语音 → 同区域任意语音 → 任意 Neural 语音 → 首个可用语音，确保最佳音质体验。

显著优点

零资源开销：纯 CPU 运算，无 GPU 依赖，适合低配置设备或长文本批量生成
即时响应：本地合成延迟低于 1 秒，远快于云端 TTS API
智能适配：自动识别 Windows 10/11 的 Neural 语音（Win11 原生支持，Win10 可通过 NaturalVoiceSAPIAdapter 扩展）
无缝集成：输出路径自动写入 .openclaw/workspace/tts 目录，便于下游工作流调用
隐私安全：文本完全本地处理，无网络传输风险

潜在局限

平台锁定：仅限 Windows 10/11，跨平台兼容性为零
语音质量天花板：即便 Neural 语音，情感表达与自然度仍落后于 Azure AI Speech、ElevenLabs 等云端方案
语言覆盖有限：依赖系统预装语音包，小语种支持不足
无流式输出：必须等待完整 WAV 生成，无法实时播放长文本
格式单一：仅输出 WAV，需额外转码为 MP3/OGG

适合人群

需要离线、隐私优先 TTS 的开发者与内容创作者
配置有限、无法运行 GPU 密集型 TTS 模型的用户
追求快速原型验证，对音质要求不极致的场景（通知播报、辅助阅读、测试数据生成）
已深度使用 Windows 生态，熟悉 PowerShell 的技术用户

常规风险

依赖系统组件：若 Windows Speech 功能被精简或损坏，工具完全失效
语音包管理混乱：第三方 NaturalVoiceSAPIAdapter 可能引入不稳定的非官方语音源
速率调节失真：极端 -Rate 值可能导致语音机械感增强
路径权限问题：自动创建目录需用户配置文件写入权限，受限环境可能失败

text-to-speech windows sapi5 powershell offline neural-voices accessibility automation

Sapi Tts 内容

手动下载zip · 2.5 kB

SKILL.mdtext/markdown

请选择文件