Audio Content Generator

🎙️ AI 脚本+语音合成,一键出品专业音频

AI 驱动的有声内容创作工具,一键生成高质量有声书、播客和教育音频,支持多种风格与自定义时长

收藏
9.6k
安装
2.8k
版本
1.0.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

Audio Content Generator 是一个端到端的 AI 音频内容生产工具,集成 Claude 脚本创作与 ElevenLabs 语音合成。用户只需提供主题和时长需求,系统自动完成从文案到成品的全流程:

1. 内容类型识别:自动判断 audiobook(叙事故事)、podcast(对话式播客)、educational(教育讲解)三种模式
2. 智能脚本生成:按 75 词/分钟计算字数,插入语音效果标记(如 [whispers][excited][long pause])优化听感

3. 用户确认环节:先生成脚本供预览修改,确认后再调用 TTS,避免 API 浪费

4. 音频输出:通过 ElevenLabs API 生成 MP3,返回 MEDIA token 供用户下载

技术路径:Claude 写脚本 → 格式化(去 markdown、数字转英文、效果标签)→ 调用 sag/scripts/tts.py → ElevenLabs API → /tmp/audio-gen/ 存储

显著优点

  • 零门槛创作:无需录音设备、配音演员或音频编辑技能,纯文本输入即可产出专业级音频
  • 格式专业化:内置三种成熟的内容结构模板,自动匹配叙事节奏、语调建议和停顿设计
  • 成本可控透明:明确标注成本(10 分钟约 $1.43),支持 2-30 分钟灵活时长,适合 MVP 测试和内容迭代
  • 工作流闭环:脚本预览 → 修改确认 → 音频生成,避免一次性生成的不可逆风险

潜在缺点与局限性

1. 单一语音限制:仅支持单一声源,无法实现多角色对话或播客访谈形式
2. 无音乐音效:纯人声输出,缺乏背景音乐和音效层,氛围营造依赖文本描述

3. 语言偏向英文:虽然 ElevenLabs 支持多语言,但脚本生成优化为英语结构,中文内容可能出现语调不自然

4. 长度硬性上限:单次最多 30 分钟(约 2250 词),长篇内容需手动分章节

5. 依赖外部 API:ElevenLabs 账户余额和速率限制直接影响可用性,无离线 fallback

适合人群

  • 独立创作者:快速验证播客/有声书创意,降低内容试错成本
  • 教育工作者:批量生成课程音频、知识点讲解,支持自定义时长适配课堂节奏
  • 多平台运营者:将文字内容 repurposing 为音频格式,扩展分发渠道
  • 视力障碍辅助:将长文转为可听内容,但需注意效果标签可能干扰屏幕阅读器

常规风险

  • API 密钥暴露ELEVENLABS_API_KEY 需配置在环境变量,共享环境存在泄露风险
  • 内容合规性:AI 生成脚本的版权归属、ElevenLabs 声音克隆的授权边界需用户自行把控
  • 临时文件安全:音频文件存储于 /tmp/,24 小时自动清理,敏感内容需及时转存
  • 成本累积:长内容(30 分钟约 $4.30)和频繁迭代可能产生意外账单,建议设置预算告警

Audio Content Generator 内容

手动下载zip · 6.5 kB
SKILL.mdtext/markdown
请选择文件