Tts

🔊 AI 情感语音一键生成

media-generation榜 #6

通过 Hume AI 或 OpenAI API 将文本转换为自然语音,支持多音色选择,适合需要语音交互、无障碍阅读或内容音频化的场景。

收藏
15.1k
安装
3.6k
版本
1.0.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

TTS(文本转语音)技能允许用户将任意文本转换为 MP3 格式的音频文件。系统优先推荐使用 Hume AI,其提供更自然的情感化语音合成;同时保留 OpenAI TTS 作为备选方案。

调用方式简单直接:通过环境变量配置 API 密钥后,执行对应的 Node.js 脚本即可生成音频。Hume AI 使用预设的优选声线 ID(9e1f9e4f-691a-4bb0-b87c-e306a4c838ef),OpenAI 则使用 nova 声线。脚本执行后会输出 MEDIA: 标记的绝对文件路径,便于后续通过消息工具发送给用户。

显著优点

1. 双引擎冗余:Hume AI 作为首选提供更具表现力的情感语音,OpenAI 作为可靠备选确保服务可用性
2. 输出标准化:统一生成 MP3 格式,兼容绝大多数播放设备和平台

3. 集成友好:脚本化调用设计,便于嵌入自动化工作流,输出路径自动标注便于程序捕获

4. 场景明确:专门响应"语音消息""朗读内容""听觉呈现"等明确需求,交互意图识别清晰

潜在局限

  • 成本敏感:双 API 均按字符或请求计费,高频使用可能产生显著费用
  • 网络依赖:完全依赖外部云服务,离线环境无法使用
  • 声线固定:当前配置仅提供单一优选声线,缺乏实时声线切换能力
  • 延迟存在:云端合成需等待网络往返,非即时响应

适合人群

  • 视障用户或偏好听觉获取信息的用户
  • 内容创作者需批量生成播客/有声内容素材
  • 开发者构建语音交互型应用的原型验证
  • 多任务场景下希望通过"听"而非"读"获取信息的用户

常规风险

  • API 密钥泄露:密钥以环境变量存储,需确保运行环境安全,避免硬编码提交至版本控制
  • 内容合规:合成语音若用于公开场合,需确保文本内容不侵犯版权或违反平台政策
  • 滥用风险:深度伪造技术背景下,语音合成存在被用于诈骗的潜在风险,建议添加身份验证水印

Tts 内容

scripts文件夹
手动下载zip · 7.4 kB
generate_hume_speech.jstext/javascript
请选择文件