使用说明

核心用法

TTS（文本转语音）技能允许用户将任意文本转换为 MP3 格式的音频文件。系统优先推荐使用 Hume AI，其提供更自然的情感化语音合成；同时保留 OpenAI TTS 作为备选方案。

调用方式简单直接：通过环境变量配置 API 密钥后，执行对应的 Node.js 脚本即可生成音频。Hume AI 使用预设的优选声线 ID（9e1f9e4f-691a-4bb0-b87c-e306a4c838ef），OpenAI 则使用 nova 声线。脚本执行后会输出 MEDIA: 标记的绝对文件路径，便于后续通过消息工具发送给用户。

显著优点

1. 双引擎冗余：Hume AI 作为首选提供更具表现力的情感语音，OpenAI 作为可靠备选确保服务可用性
2. 输出标准化：统一生成 MP3 格式，兼容绝大多数播放设备和平台
3. 集成友好：脚本化调用设计，便于嵌入自动化工作流，输出路径自动标注便于程序捕获
4. 场景明确：专门响应"语音消息""朗读内容""听觉呈现"等明确需求，交互意图识别清晰

潜在局限

成本敏感：双 API 均按字符或请求计费，高频使用可能产生显著费用
网络依赖：完全依赖外部云服务，离线环境无法使用
声线固定：当前配置仅提供单一优选声线，缺乏实时声线切换能力
延迟存在：云端合成需等待网络往返，非即时响应

适合人群

视障用户或偏好听觉获取信息的用户
内容创作者需批量生成播客/有声内容素材
开发者构建语音交互型应用的原型验证
多任务场景下希望通过"听"而非"读"获取信息的用户

常规风险

API 密钥泄露：密钥以环境变量存储，需确保运行环境安全，避免硬编码提交至版本控制
内容合规：合成语音若用于公开场合，需确保文本内容不侵犯版权或违反平台政策
滥用风险：深度伪造技术背景下，语音合成存在被用于诈骗的潜在风险，建议添加身份验证水印

text-to-speech voice-synthesis hume-ai openai audio-generation accessibility speech-synthesis

Tts 内容

scripts文件夹

手动下载zip · 7.4 kB

generate_hume_speech.jstext/javascript

请选择文件