使用说明

核心用法

Audio Content Generator 是一个端到端的 AI 音频内容生产工具，集成 Claude 脚本创作与 ElevenLabs 语音合成。用户只需提供主题和时长需求，系统自动完成从文案到成品的全流程：

1. 内容类型识别：自动判断 audiobook（叙事故事）、podcast（对话式播客）、educational（教育讲解）三种模式
2. 智能脚本生成：按 75 词/分钟计算字数，插入语音效果标记（如 [whispers]、[excited]、[long pause]）优化听感
3. 用户确认环节：先生成脚本供预览修改，确认后再调用 TTS，避免 API 浪费
4. 音频输出：通过 ElevenLabs API 生成 MP3，返回 MEDIA token 供用户下载

技术路径：Claude 写脚本 → 格式化（去 markdown、数字转英文、效果标签）→ 调用 sag/scripts/tts.py → ElevenLabs API → /tmp/audio-gen/ 存储

显著优点

零门槛创作：无需录音设备、配音演员或音频编辑技能，纯文本输入即可产出专业级音频
格式专业化：内置三种成熟的内容结构模板，自动匹配叙事节奏、语调建议和停顿设计
成本可控透明：明确标注成本（10 分钟约 $1.43），支持 2-30 分钟灵活时长，适合 MVP 测试和内容迭代
工作流闭环：脚本预览 → 修改确认 → 音频生成，避免一次性生成的不可逆风险

潜在缺点与局限性

1. 单一语音限制：仅支持单一声源，无法实现多角色对话或播客访谈形式
2. 无音乐音效：纯人声输出，缺乏背景音乐和音效层，氛围营造依赖文本描述
3. 语言偏向英文：虽然 ElevenLabs 支持多语言，但脚本生成优化为英语结构，中文内容可能出现语调不自然
4. 长度硬性上限：单次最多 30 分钟（约 2250 词），长篇内容需手动分章节
5. 依赖外部 API：ElevenLabs 账户余额和速率限制直接影响可用性，无离线 fallback

适合人群

独立创作者：快速验证播客/有声书创意，降低内容试错成本
教育工作者：批量生成课程音频、知识点讲解，支持自定义时长适配课堂节奏
多平台运营者：将文字内容 repurposing 为音频格式，扩展分发渠道
视力障碍辅助：将长文转为可听内容，但需注意效果标签可能干扰屏幕阅读器

常规风险

API 密钥暴露：ELEVENLABS_API_KEY 需配置在环境变量，共享环境存在泄露风险
内容合规性：AI 生成脚本的版权归属、ElevenLabs 声音克隆的授权边界需用户自行把控
临时文件安全：音频文件存储于 /tmp/，24 小时自动清理，敏感内容需及时转存
成本累积：长内容（30 分钟约 $4.30）和频繁迭代可能产生意外账单，建议设置预算告警

audio text-to-speech content-generation media-production elevenlabs tts podcast audiobook educational-content creative-writing

Audio Content Generator 内容

手动下载zip · 6.5 kB

SKILL.mdtext/markdown

请选择文件