使用说明

核心用法

Edge-TTS Skill 提供文本到语音转换功能，支持两种使用模式：对于简单需求，直接调用内置 tts()() 工具即可快速生成音频；对于高级需求，可通过 tts-converter.js 脚本实现精细控制，包括语音选择（如 en-US-MichelleNeural）、语速调节（-20% 至 +50%）、音调控制、音量调整及输出格式定制。配置管理器支持持久化保存用户偏好，避免重复设置。

显著优点

该 Skill 最大优势在于零成本使用微软 Edge 神经 TTS 服务，无需 API 密钥或付费订阅，即可获得接近真人发音质量的音频输出。支持 100+ 种语言和方言，覆盖全球主要语种。功能层面提供丰富的 prosody 控制（rate/pitch/volume），并支持字幕生成（JSON 格式带词级时间戳），满足内容创作、无障碍辅助等多场景需求。代码结构清晰，模块化设计良好，配置管理便捷。

潜在缺点与局限性

网络依赖性强：必须连接互联网调用微软在线服务，无法离线使用，存在服务可用性风险。临时文件管理缺陷：音频文件默认保存至系统临时目录且不自动清理，长期运行可能导致磁盘空间占用。隐私顾虑：文本内容需发送至外部服务器处理，敏感信息存在泄露风险。此外，输出路径未严格验证路径遍历，虽风险较低仍需注意。

适合的目标群体

内容创作者：播客、视频配音、多媒体制作
开发者：需要语音合成集成的应用开发
无障碍需求用户：视障辅助、阅读障碍支持
多语言学习者：外语发音练习、听力材料生成
自动化场景：语音播报、通知提醒系统

使用风险

1. 服务稳定性风险：依赖微软 Edge TTS 在线服务，网络波动或服务变更可能影响可用性
2. 隐私合规风险：文本数据出境处理，企业敏感信息需谨慎评估
3. 磁盘空间风险：临时文件累积需建立定期清理机制
4. 代理配置风险：如使用代理服务器，需确保来源可信防止中间人攻击
5. 性能瓶颈：超长文本（接近 10000 字符限制）可能增加处理延迟

安全解读

核心用法

Edge-TTS Skill 通过调用 Microsoft Edge 的在线神经 TTS 服务，将文本转换为高质量语音。支持两种使用方式：

1. 内置工具快速调用：使用 tts("文本") 指令直接生成音频，适合简单场景
2. Node.js 脚本高级定制：通过 tts-converter.js 实现完整参数控制，包括音色选择、语速/音调/音量调节、输出格式、字幕生成等

关键特性：

支持 40+ 种语言的神经语音（Neural voices）
可调节语速（-50% 至 +100%）、音调、音量
支持 MP3 格式输出，可选 24kHz/48kHz 采样率
可生成带时间戳的字幕文件（JSON 格式）
配置持久化存储（~/.tts-config.json）

显著优点

零成本使用：无需 API 密钥，调用 Microsoft 免费服务
音质优秀：神经语音自然流畅，接近真人朗读
多场景适配：从语音笔记到专业音频制作均可满足
灵活配置：支持代理设置、超时控制、自定义输出路径
字幕同步：可生成精确的单词级时间戳字幕

潜在缺点与局限性

网络依赖：必须联网使用，无法离线运行
服务稳定性风险：依赖 Microsoft Edge 服务，存在服务变更或限制可能
文本长度限制：建议单次不超过 10000 字符，超长文本可能异常
临时文件管理：音频文件默认存于系统临时目录，需调用方主动清理
无商业 SLA：免费服务不保证可用性和持续性

适合人群

需要快速将文章、邮件、报告转换为语音的办公用户
有视力障碍或阅读困难的用户（辅助功能场景）
多任务处理场景（驾驶、运动、家务时收听内容）
内容创作者制作播客、有声书、视频配音
语言学习者需要标准发音示范

常规风险

隐私注意：文本内容会传输至 Microsoft 服务器处理，敏感信息需谨慎
版权问题：生成的音频受原文本版权约束，商用需注意授权
服务变更风险：Microsoft 可能调整服务条款或限制调用频率
磁盘空间：长期不清理临时文件可能占用存储空间

content-media accessibility productivity automation api

edge-tts 内容

references文件夹

scripts文件夹

手动下载zip · 16.2 kB

node_edge_tts_guide.mdtext/markdown

请选择文件