使用说明

核心用法

sapi-tts 是一款基于 Windows SAPI5 的轻量级文本转语音脚本，利用 PowerShell 调用系统内置语音合成引擎。无需安装第三方 AI 模型或依赖 GPU，即可实现即时语音生成。支持自动识别最优语音（优先 Neural 语音）、多语言切换、语速调节、WAV 输出及即时播放。

显著优点

1. 零硬件门槛：纯 CPU 运行，无需 NVDIA/AMD 显卡，老旧设备亦可流畅使用
2. 毫秒级响应：本地系统 API 调用，生成延迟 < 1 秒
3. 智能语音选择：自动匹配语言对应的 Neural 语音，支持部分名称模糊匹配
4. 开箱即用：Windows 10/11 原生支持，无需复杂环境配置
5. 格式友好：输出标准 WAV 格式，兼容性强

潜在缺点与局限性

平台锁定：仅支持 Windows，macOS/Linux 无法使用
语音质量上限：即便 Neural 语音，仍逊于云端 AI TTS（如 ElevenLabs、Azure TTS）
语言覆盖有限：依赖 Windows 系统安装的语言包，小语种支持可能缺失
无 SSML 高级控制：不支持复杂的情感标记、停顿控制等专业功能
音频格式单一：仅输出 WAV，无 MP3/OGG 等压缩选项

适合人群

需要快速生成提示音、通知语音的开发者
硬件资源受限场景（低配服务器、VM 环境）
隐私敏感用户（本地处理，不上传云端）
法语/英语/德语/西班牙语/意大利语内容创作者

常规风险

路径遍历风险：-Output 参数未做严格校验，恶意输入可能覆盖系统文件（建议限定输出目录）
语音包依赖：未安装对应语言语音时降级为任意可用语音，可能导致输出与预期不符
无输入过滤：未对 $Text 内容做过滤，特殊字符可能引发解析异常

安全解读

核心用法

sapi-tts 是一款基于 Windows 系统内置 SAPI5 接口的文本转语音工具，通过 PowerShell 脚本实现。用户可直接调用脚本将文本转换为 WAV 音频文件，支持自动语音选择、语速调节、即时播放等功能。

基本调用方式：

.\tts.ps1 "要朗读的文本" -Lang fr -Play

脚本自动检测系统已安装的语音包，优先选择 Neural 语音（Windows 11 原生支持，Windows 10 可通过第三方适配器扩展），若未找到则回退至传统语音。

显著优点

1. 零资源消耗：纯 CPU 运算，无需 GPU，生成速度极快（<1秒）
2. 离线可用：完全依赖 Windows 系统组件，无需网络连接
3. 自动语音选择：内置多语言映射（fr/en/de/es/it），自动匹配最佳语音
4. Neural 语音支持：Windows 11 原生支持高质量神经网络语音
5. 轻量无依赖：仅使用系统 .NET 类库，无第三方包

局限性与注意事项

平台限制：仅支持 Windows 10/11，Linux/macOS 不可用
语音包依赖：需用户自行在系统设置中安装语音包，否则可能无可用语音
输出格式单一：仅支持 WAV 输出，无 MP3 等压缩格式
扩展性有限：相比 Azure TTS 等云端方案，语音风格和 SSML 控制能力较弱

适合人群

需要离线、即时、低资源语音合成的 Windows 用户
对 GPU 资源敏感或无法联网的环境（如企业内网、边缘设备）
快速原型开发、自动化脚本、辅助功能等场景

常规风险

1. T3 来源风险：由个人开发者维护，建议关注后续更新来源可信度
2. 外部链接引用：文档中提及第三方 GitHub 项目（NaturalVoiceSAPIAdapter），如需安装需自行审查
3. 文件系统操作：脚本在用户目录（~\.openclaw\workspace\tts）创建音频文件，权限可控

安全结论

经 CLS-Certify 扫描，该 Skill 获得 A 级安全评分（87/100）。无网络请求、无危险代码执行、无敏感信息泄露，使用 Windows 标准 API，行为可预期。适合在受信任环境中使用。

text-to-speech windows powershell sapi5 neural-voice offline audio-generation accessibility

Sapi Tts 内容

手动下载zip · 2.8 kB

SKILL.mdtext/markdown

请选择文件