使用说明

核心用法

audio-gen 是一款 AI 驱动的音频内容生成技能，用户只需提供主题或创意，系统即可自动完成脚本撰写与语音合成。支持三种内容格式：有声书（叙事风格，含情感深度与戏剧化停顿）、播客（对话式、温暖亲切）、教育内容（清晰讲解、循序渐进）。使用时，用户指定主题、时长（2-30分钟）与风格偏好，Claude 生成符合字数要求的脚本（按75词/分钟计算），经用户确认后调用 ElevenLabs API 合成 MP3 音频文件。

显著优点

全流程自动化：从创意到成品音频一站式完成，无需用户具备写作或音频制作技能。专业级输出质量：ElevenLabs eleven_multilingual_v2 模型提供接近真人水准的语音合成，支持 [whispers]、[excited] 等 SSML 语音效果增强表现力。灵活的内容控制：支持自定义时长、风格调性，提供脚本预览与修改环节，避免 API 浪费。清晰的成本透明：明确标注 10 分钟音频约 $1.43 成本（Claude $0.075 + ElevenLabs $1.35），便于预算规划。完善的边界处理：内置长度验证（150-2250词）、错误处理与重试机制，防止无效请求。

潜在缺点与局限性

单一声线限制：仅支持单一旁白声音，无法实现多角色对话或角色区分，戏剧化内容表现力受限。无音频后期能力：不支持背景音乐、音效叠加或混音，输出为纯人声干音。英文优化为主：虽 ElevenLabs 支持多语言，但脚本生成逻辑针对英语优化，其他语言效果可能打折。第三方服务依赖：核心功能依赖 ElevenLabs 与 Anthropic API，需持续付费且受服务商稳定性制约。30分钟硬性上限：超长内容需手动分集，无法一次性生成长篇有声书。

适合的目标群体

内容创作者：快速验证播客创意、制作 demo 或填充内容库
教育工作者：将教案转化为可听材料，支持多模态学习
独立作者：低成本制作有声书原型或短篇作品
企业培训：生成内部培训音频、产品讲解材料
无障碍服务：为视障用户或偏好音频学习者提供内容替代方案

使用风险

成本累积风险：ElevenLabs 按字符计费，高频使用或长内容可能产生意外账单，建议设置用量监控。API 密钥管理：需妥善保管 ANTHROPIC_API_KEY 与 ELEVENLABS_API_KEY，避免泄露导致滥用。内容合规责任：AI 生成脚本的版权归属、事实准确性及敏感内容需用户自行审核，不宜直接用于商业发布。数据跨境传输：脚本内容需发送至 ElevenLabs 美国服务器处理，涉及数据出境合规考量。服务中断风险：任一 API 服务故障将导致功能不可用，无本地离线 fallback 方案。

安全解读

核心用法

audio-gen 是一款专注于音频内容创作的 AI 工具，通过「脚本生成 + 语音合成」双引擎工作流，帮助用户快速制作有声书、播客节目和教育类音频。用户只需提供主题和时长需求，系统即可自动完成从内容策划到成品输出的全流程。

使用流程：
1. 需求解析 — 识别内容类型（有声书/播客/教育）、主题、目标时长及风格偏好
2. 脚本生成 — 调用 Anthropic Claude 编写符合格式规范的脚本（约 75 词/分钟）
3. 语音合成 — 通过 ElevenLabs API 将脚本转换为高质量 MP3 音频
4. 成品交付 — 返回 MEDIA 令牌指向的音频文件

三种内容格式特色：

有声书：叙事性强，支持 [whispers]、[excited] 等语音效果标记，强调情感张力与戏剧节奏
播客：对话式风格，包含开场白、主题过渡和记忆点总结
教育内容：由浅入深讲解，配合实例与类比，适合知识传播

显著优点

零门槛创作：无需专业录音设备或配音经验，几分钟即可获得广播级音质
格式专业化：内置三种成熟的内容模板， pacing 和结构经过优化
成本透明：文档明确标注成本（10 分钟音频约 $1.43），无隐藏费用
高度可控：支持 2-30 分钟灵活时长，可多次修改脚本后再生成音频
技术栈成熟：ElevenLabs 为行业领先的 TTS 服务商，语音自然度极高

潜在缺点与局限性

| 限制类型 | 具体说明 |

|---------|---------|

| **时长上限** | 单次最多 30 分钟（约 2,250 词），长内容需分集制作 |

| **单一声源** | 仅支持单一叙述声音，无法实现多角色对话或访谈效果 |

| **无后期制作** | 不包含背景音乐、音效或混音功能，为纯人声输出 |

| **语言局限** | 内容生成优化针对英语，其他语言支持依赖 ElevenLabs 基础能力 |

| **实时生成** | 每次请求重新创作，无预制模板或缓存音频 |

适合人群

内容创作者：希望快速验证音频选题、制作播客样片或系列有声书
教育工作者：需要制作课程讲解、知识科普等标准化音频内容
企业培训：内部培训材料、产品说明书的语音化转换
无障碍需求：将文字内容转换为音频格式的辅助工具用户

常规风险

1. API 依赖风险：功能完全依赖 ElevenLabs 和 Anthropic 的服务可用性与定价策略
2. 成本累积：高频或长时长使用可能产生可观费用，需设置预算告警
3. 内容合规：AI 生成脚本需人工审核，避免版权或敏感内容问题
4. 单点故障：核心功能委托给 sag skill 执行，若 sag skill 异常则整个工具失效

content-media productivity education-research automation api

audio-gen 内容

手动下载zip · 6.4 kB

SKILL.mdtext/markdown

请选择文件