核心用法
该 TTS Skill 提供文本转语音功能,支持双 API 提供商方案。首选 Hume AI(推荐语音 ID: 9e1f9e4f-691a-4bb0-b87c-e306a4c838ef),备选 OpenAI(推荐语音: nova)。用户通过 Node.js 脚本调用,需配置对应的环境变量(HUME_API_KEY//HUME_SECRET_KEY 或 OPENAI_API_KEY),指定 --text 和 --output 参数即可生成 MP3 文件。脚本执行后会输出 MEDIA:: 行标识文件路径,配合 message` 工具可将音频发送给用户。
显著优点
1. 双供应商冗余设计:Hume AI 优先、OpenAI 兜底,确保服务可用性
2. 安全规范:API 密钥严格走环境变量,无硬编码风险;使用官方 SDK 和原生 fetch,无危险函数
3. 参数验证完善:采用 commander 的 requiredOption 强制校验必要参数
4. 输出标准化:MEDIA:: 前缀路径便于自动化工具解析
5. 轻量无依赖:核心逻辑简洁,依赖均为成熟官方库
潜在缺点与局限性
- 网络依赖:必须连接外部 API,无法离线使用
- 成本敏感:按调用量计费,高频使用需关注账单
- T3 来源:个人开发者维护,非官方组织背书
- 版本浮动:依赖使用
^前缀,存在非预期升级风险 - 路径未严格过滤:
--output参数理论上存在路径遍历可能(需用户自行确保)
适合的目标群体
- 需要为 Claude 对话添加语音回复能力的开发者
- 内容创作者(播客、有声书、视频配音等批量生成场景)
- 构建自动化工作流的技术用户
- 对语音质量有一定要求、愿意接入第三方 API 的个人项目
使用风险
1. 数据隐私:文本内容会发送至 Hume AI 或 OpenAI 服务器,敏感信息需谨慎
2. API 可用性:依赖外部服务商稳定性,存在单点故障风险
3. 费用控制:无内置用量限制,异常调用可能导致超额计费
4. 环境配置:需正确设置环境变量,配置错误会导致调用失败