ai-podcast-pipeline

🎙️ 韩语双主持 AI 播客智能生产线

基于 Google Gemini 的端到端韩语播客制作工具,支持双主持 TTS 与自动字幕渲染,快速生成专业播客资产。

收藏
3.7k
安装
1k
版本
v0.1.5
CLS 安全性认证2026-05-08
点击查看完整报告 >

使用说明

AI Podcast Pipeline 是一套专为韩语内容创作者设计的端到端 AI 播客制作工具链,版本 0.1.5 提供了从原始趋势笔记到成品播客包的全自动化生产能力。

核心用法方面,该技能通过七个标准化步骤实现工作流:首先选择 QuickView 趋势笔记作为数据源,随后生成双主持(Callie × Nick)对话脚本,支持完整版(15-20 分钟)和压缩版(5-7 分钟)两种模式。接着利用 Google Gemini 多说话人 TTS 技术生成双声道音频,通过分块构建策略确保长文本处理的可靠性。随后自动生成完整韩语字幕(无省略号截断),并渲染为带字幕的 MP4 视频,支持字体、字号和时间偏移调整。最后自动生成 YouTube 缩略图和元数据,形成可直接发布的完整资产包。

显著优点包括:双角色语音合成创造真实对话感;基于 Gemini 的 TTS 技术提供高质量韩语语音;全自动字幕生成与同步减少人工调整;支持分块处理避免 API 超时;完整的 YouTube 发布准备(标题、描述、缩略图);环境变量管理 API 密钥确保安全性。

潜在缺点在于:功能高度依赖 Google Gemini API 的可用性和网络连接;需要本地安装 ffmpeg 等外部工具;目前仅针对韩语优化,其他语言支持有限;作为 T3 来源的个人开发者项目,长期维护存在不确定性;对字体文件路径和外部 skill(nano-banana-pro)有硬性依赖。

适合的目标群体包括:韩语 AI 播客内容创作者、需要批量生成教育或新闻类音频节目的媒体工作者、希望通过自动化减少制作时间的 YouTube 播客主,以及探索 AI 语音合成应用的技术早期采用者。

使用风险主要包括:网络依赖风险(Gemini API 访问不稳定可能导致中断);API 密钥管理风险(用户需自行确保环境变量安全);外部工具依赖(ffmpeg 版本兼容性可能影响输出质量);文件系统权限(需要读写临时文件和输出目录);以及个人开发者维护风险(更新频率和功能延续性不确定)。

安全解读

核心用法

AI Podcast Pipeline 是一套完整的自动化播客生产工作流,专为韩文内容创作者设计。系统从 QuickView 趋势笔记出发,通过 7 个标准化步骤产出可直接发布的播客资产包:

1. 源文件选择:支持本地 Quartz markdown 或 wk.aiee.app URL 映射

2. 脚本生成:双模式可选——完整版(15-20分钟)或压缩版(5-7分钟核心要点),由 Callie(女声)与 Nick(男声)进行对话式呈现,遵循预设模板保证风格统一

3. 双轨音频合成:采用 Google Gemini 多角色 TTS API,支持分块构建(chunked builder)避免超时,默认声线 Kore↔Callie、Puck↔Nick

4. 全文字幕生成:无截断省略号,严格适配韩语排版(每行≤22字符)

5. 字幕视频渲染:基于 PIL 和 ffmpeg 合成,支持字体(Do Hyeon)、字号(25-27pt)、时序偏移(-150~-300ms 延迟修正)微调

6. 缩略图与元数据:自动生成 YouTube 标题(3 套备选)、描述、缩略图

7. 交付清单:源文件、MP3、MP4(含大小)、缩略图、YouTube 全套元数据

显著优点

  • 端到端自动化:从原始笔记到发布就绪资产,人工介入仅需审核与微调
  • 双声线自然对话:非单 TTS 朗读,而是角色化对谈,听感更接近真人播客
  • 工程可靠性:分块处理解决长文本 API 超时;环境变量密钥管理通过 S 级安全认证
  • 零第三方依赖风险:除 PIL 外纯标准库实现,供应链攻击面极小
  • 格式兼容性:MP3/MP4/SRT/PNG 标准输出,适配 Telegram、YouTube、Spotify 全平台

潜在缺点与局限性

  • 韩语专属:当前仅优化韩语 TTS 与排版,英文或其他语言需额外适配
  • Gemini 绑定:深度依赖 Google Gemini API,定价策略变更或区域可用性会影响服务
  • 视觉固定:缩略图模板相对标准化,高度定制化需手动介入
  • 时长天花板:20 分钟以上内容建议拆分多期,单文件处理存在内存考量
  • ffmpeg 环境依赖:需本地预装 ffmpeg/ffprobe,Windows 环境配置门槛略高

适合人群

  • 韩语科技/趋势类内容创作者,希望高频产出(周更级别)而不牺牲专业度
  • 个人播客主,缺乏录音设备或配音能力,追求"一键生成"效率
  • 媒体运营团队,需要将 Newsletter/速览笔记快速转化为多模态资产
  • 对 AI 语音合成接受度高、愿意在人工审核后发布的务实生产者

常规风险

| 风险点 | 等级 | 说明 |
|--------|------|------|
| API 密钥泄露 | 低 | 强制环境变量读取,无硬编码,已通过审计 |
| 供应链攻击 | 极低 | 标准库+PIL,无复杂依赖树 |
| 内容版权 | 中 | 需确保源 QuickView 内容原创或合规引用 |
| API 服务中断 | 中 | Gemini 故障将阻断音频与缩略图生成 |
| 语音伦理争议 | 低 | AI 合成语音需按平台规范披露,避免误导 |

整体而言,这是当前韩语 AI 播客领域工程完成度最高的开源方案,安全认证 S 级、代码透明可审计,适合作为生产级基础设施部署。

ai-podcast-pipeline 内容

references文件夹
scripts文件夹
手动下载zip · 19.6 kB
podcast_prompt_template_ko.mdtext/markdown
请选择文件