使用说明

核心用法

SAPI5 TTS 是一款专为 Windows 系统设计的轻量级文本转语音技能，通过调用 Windows 内置的 SAPI5（Speech Application Programming Interface 5）引擎实现语音合成。用户只需将 PowerShell 脚本保存为 tts.ps1 文件，即可通过命令行快速生成 WAV 格式音频文件。核心功能包括：文本转语音文件生成、自动语音选择（支持按语言或指定名称匹配）、语速调节（-10 到 +10）、即时播放以及已安装语音列表查询。

使用方法极为简洁，基础命令如 . ts.ps1 "你好世界" 即可生成音频，配合 -Play 参数可实现生成后立即播放。脚本支持多语言自动检测，默认法语但可通过 -Lang 参数切换至英语、德语、西班牙语、意大利语等，系统会自动优先选择 Neural 语音以获得更自然的合成效果。

显著优点

零硬件依赖是该技能最突出的优势。与当前主流的 GPU 密集型 TTS 模型（如 GPT-SoVITS、Bark 等）不同，SAPI5 TTS 完全依赖 Windows 系统内置的语音引擎，无需显卡、无需 CUDA、无需下载数 GB 的模型文件，实现真正的即时生成（<1秒）。

完全离线运行确保隐私安全，所有文本处理和语音合成均在本地完成，无网络传输、无云端依赖，特别适合对数据敏感的企业环境或无网络连接场景。Windows 11 用户可直接使用系统内置的 Neural 语音，音质接近商业 TTS 服务；Windows 10 用户也可通过 NaturalVoiceSAPIAdapter 扩展获得 Neural 语音支持。

部署极简是另一大亮点。单文件 PowerShell 脚本，无外部依赖包，无需 Python 环境或 Node.js，直接利用 Windows 原生的 .NET Framework/System.Speech 组件，在任何 Windows 10/11 设备上开箱即用。

潜在缺点与局限性

平台锁定是最明显的限制。该技能完全依赖 Windows SAPI5 架构，无法在 Linux、macOS 或其他操作系统上运行，跨平台兼容性为零。

语音质量天花板存在客观瓶颈。尽管 Neural 语音已有显著提升，但与最前沿的深度学习 TTS 模型（如 ElevenLabs、Azure Neural Voice 的最新版本）相比，自然度、情感表达和韵律控制仍有差距。且语音选择受限于 Windows 系统已安装的语音包，扩展性不如开源模型灵活。

功能相对基础，缺乏高级特性如 SSML 精细控制、语音克隆、实时流式合成、多说话人切换等。对于需要复杂语音编排的专业场景（如有声书制作、游戏配音），功能可能不足。

PowerShell 执行策略可能带来初次使用障碍，部分企业环境默认禁止 PowerShell 脚本执行，需要用户手动调整执行策略或申请权限。

适合的目标群体

该技能特别适合以下用户：

Windows 开发者与运维人员：需要快速生成系统提示音、告警语音或自动化脚本语音反馈
隐私敏感型用户：拒绝云端 TTS 服务，要求完全本地处理
轻量级需求场景：如个人笔记朗读、简单内容审核、辅助阅读等，无需专业级音质
资源受限设备：老旧笔记本、虚拟机、边缘计算设备等无 GPU 环境
快速原型验证：在产品开发初期快速集成 TTS 能力，无需搭建复杂推理环境

使用风险

性能风险极低，CPU 占用微乎其微，但大规模批量生成时需注意磁盘 I/O 和存储空间。默认输出目录为 %USERPROFILE%\.openclaw\workspace\tts，长期未清理可能积累大量音频文件。

依赖风险主要来自 Windows 系统语音包的可用性。若目标语言未安装语音包，将自动降级至可用语音，可能导致输出语言不匹配。建议首次使用前运行 -ListVoices 确认环境配置。

兼容性风险存在于 Windows 版本差异。Windows 10 早期版本可能缺少部分 Neural 语音支持，需额外安装适配器。企业域控环境可能限制语音引擎的某些功能。

安全风险可控，脚本本身无网络通信、无敏感权限申请，但需注意 PowerShell 脚本的来源验证，避免被篡改植入恶意代码。

安全解读

核心功能

sapi-tts 是一款基于 Windows 原生 SAPI5 语音合成引擎的轻量级 TTS 工具，通过 PowerShell 脚本调用系统内置的 .NET 库实现文本转语音功能。无需任何 GPU 资源，生成速度接近即时（<1秒），特别适合需要快速、离线语音合成的场景。

显著优点

1. 零依赖部署：仅依赖 Windows 内置的 System.Speech 和 PresentationCore 库，无需安装第三方软件包或深度学习框架，彻底规避供应链风险
2. 资源占用极低：纯 CPU 运行，无 GPU 显存占用，内存和 CPU 消耗微乎其微
3. 智能语音选择：自动检测系统可用语音，优先匹配 Neural 语音（Win11 原生支持），支持法语、英语、德语、西班牙语、意大利语等多语言
4. 灵活输出控制：支持生成 WAV 文件或直接播放，可调节语速（-10 到 +10），支持指定特定语音名称
5. 完全离线运行：无需网络连接，无隐私数据外泄风险

潜在局限

平台限制：仅限 Windows 10/11 系统，其他平台无法使用
语音质量天花板：虽支持 Neural 语音，但整体音质仍逊于现代云端 TTS（如 Azure Neural、ElevenLabs）
格式单一：仅输出 WAV 格式，如需 MP3 等格式需额外转换
语音数量依赖系统：可用语音取决于 Windows 系统安装的语言包，需手动在系统设置中添加

适合人群

需要离线、快速、低成本 TTS 解决方案的开发者
对数据隐私敏感、不愿将文本发送到云端处理的用户
硬件资源受限（无 GPU）但需要稳定语音合成的场景
批量生成语音内容的自动化工作流

常规风险与建议

输入验证：建议增加文本长度限制（如 5000 字符），防止异常输入
路径安全：-Output 参数可指定任意路径，建议在生产环境中限制输出目录
环境变量：代码读取 $env:USERPROFILE 用于确定存储路径，属正常操作

安装建议

Windows 11 用户可直接使用内置 Neural 语音；Windows 10 用户建议安装 NaturalVoiceSAPIAdapter 扩展更多高质量语音。

content-media productivity automation windows accessibility

sapi-tts 内容

手动下载zip · 2.9 kB

SKILL.mdtext/markdown

请选择文件