ai-podcast-creation

🎙️ AI驱动的专业播客制作工坊

内容创作榜 #37

基于inference.sh平台整合Kokoro与DIA等先进TTS模型,支持多角色对话与AI音乐生成,零门槛制作专业级播客与有声书内容。

收藏
16.5k
安装
3.6k
版本
v0.1.5
CLS 安全性认证2026-04-30
点击查看完整报告 >

使用说明

AI Podcast Creation 是一款基于 inference.sh 云平台的文档型播客制作技能,通过 CLI 工具链提供从脚本创作到音频成品的完整工作流。用户可利用该技能调用 Kokoro TTS、DIA TTS 等先进语音合成模型,结合 AI 音乐生成与媒体合并工具,实现单人旁白、双人对谈、有声书章节等多种音频内容形态的自动化生产。

核心用法方面,该技能采用管道化设计:首先通过 LLM(如 Claude)生成结构化脚本,标记不同说话人角色;随后利用 infsh app run 命令分别调用特定语音模型(如 am_michael 主持音、af_sarah 嘉宾音)生成独立音轨;最后通过 media-merger 工具进行交叉淡入淡出、背景音乐叠加(建议音量 10-15%)及音轨拼接,输出完整剧集。特别值得一提的是其 NotebookLM 风格功能,可将长文档自动转换为双人讨论式播客脚本,并生成自然对话音频。

显著优点体现在:一是语音库丰富,涵盖美音/英音男女声及对话式 DIA 模型,支持语速调节与情感表达;二是提供完整的工业级模板,包括访谈格式、独白结构、新闻综述等,并附带脚本写作最佳实践(如自然停顿标点、口语化填充词使用);三是纯文档属性带来的透明性,所有操作均为可审计的 CLI 命令示例,无黑盒代码。

潜在局限包括:严重依赖 inference.sh 第三方云服务,需持续网络连接且产生平台计费;作为 T3 级个人来源项目,缺乏企业级维护背书;文档未明确说明中文语音支持情况,主要示例针对英文内容;长文本生成可能受限于云端 API 的速率与字数限制。

适合群体主要为独立播客创作者、内容营销人员、教育工作者(制作课程音频)、有声书自出版作者,以及寻求 NotebookLM 替代方案需将文档转为音频的用户。不适用于对数据主权要求极高的涉密场景或需离线工作的环境。

使用风险需关注:执行 infsh 命令需授予 Bash 权限,应确保 CLI 安装源(https://cli.inference.sh)可信;用户脚本与生成内容将上传至远程服务器处理,需仔细阅读 inference.sh 隐私政策;长时间音频生成可能产生意外费用,建议预先了解平台计费规则;网络中断可能导致制作流程中断且难以断点续传。

安全解读

核心用法

AI Podcast Creation 是一套通过 inference.sh CLI 实现 AI 播客创作的文档型 Skill,提供完整的文本转语音(TTS)、AI 音乐生成与音频合并工作流。

主要能力:

  • 多语音合成:集成 Kokoro TTS(6 种预设声音,含美式/英式男女声)、DIA TTS(自然对话风格)、Chatterbox(表现力风格),支持对话式播客制作
  • AI 音乐生成:自动生成片头/片尾音乐、背景氛围音与转场音效
  • 音频混剪:通过 media-merger 实现多轨合并、淡入淡出、背景音乐叠加(建议音量 10-15%)
  • 完整工作流:从脚本撰写(Claude 辅助)→ 分段生成 → 混音输出,支持 NotebookLM 风格的文档转播客

典型场景:

  • 双人对话播客(Host/Guest 模式)
  • 单人知识分享/新闻播报
  • 有声书章节制作
  • 音频 Newsletter

显著优点

1. 零代码门槛:纯 Markdown 文档,提供即复制即用的 Bash 命令模板
2. 多引擎灵活:Kokoro 声音自然度高,DIA 适合对话,可按内容风格选择

3. 成本可控:基于 inference.sh 按量计费,无固定订阅

4. NotebookLM 替代:原生支持"文档→双人讨论脚本→音频"的完整 pipeline

潜在局限

  • 外部依赖重:核心功能完全依赖 inference.sh 平台,需注册登录,存在服务可用性风险
  • curl | bash 安装:虽然验证为官方渠道,但对安全敏感用户不够友好
  • 中文支持未明:文档示例均为英文,中文 TTS 效果需自行验证
  • 无本地离线能力:所有音频生成均在云端完成

适合人群

  • 内容创作者:希望快速将文本/文档转为音频节目
  • 独立播客主:需低成本试水,无需专业录音设备
  • 企业内容团队:批量生成音频 Newsletter、内部培训材料
  • NotebookLM 用户:寻求更高自定义度的替代方案

常规风险

1. 服务稳定性:inference.sh 为第三方平台,存在 API 变更或停运风险
2. 内容合规:AI 生成的音频内容需标注,商用需确认平台授权条款

3. 声音授权:使用特定 TTS 声音进行商业播客,建议核实声音授权范围

4. 网络传输:音频文件通过 URL 传递,敏感内容需注意传输安全

ai-podcast-creation 内容

手动下载zip · 3.1 kB
SKILL.mdtext/markdown
请选择文件