Youtube Apify Transcript

📹 云服务器可用的 YouTube 字幕抓取

通过 APIFY API 获取 YouTube 视频字幕,支持云服务器 IP 环境,内置本地缓存和批量处理,每月免费额度可处理约 714 个视频。

收藏
11k
安装
3.4k
版本
1.3.3
CLS 安全性认证2026-06-03
点击查看完整报告 >

使用说明

核心用法

youtube-apify-transcript 是一款面向开发者和自动化工作流的 YouTube 字幕获取工具。其核心解决思路是:利用 APIFY 平台的住宅代理网络,绕过 YouTube 对云服务器 IP(AWS、GCP、Hetzner 等)的机器人检测机制,从而稳定获取视频字幕数据。

主要功能特性

1. APIFY 代理中转

  • 将字幕抓取请求通过 APIFY 的住宅代理网络转发
  • 有效规避 YouTube 的 IP 封禁和验证码挑战
  • 支持从云服务器环境直接运行

2. 智能本地缓存

  • 默认开启本地文件缓存,重复请求完全免费
  • 缓存目录可自定义(YT_TRANSCRIPT_CACHE_DIR 环境变量)
  • 提供缓存统计和清理命令

3. 多格式输出

  • 纯文本格式:适合直接阅读或输入 LLM
  • JSON 格式:包含时间戳、视频标题等元数据
  • 支持语言偏好指定

4. 批量处理模式

  • 从文件读取 URL 列表批量抓取
  • 自动统计成功/失败/缓存命中数量
  • 适合内容归档、数据分析等场景

显著优点

  • 云环境友好:突破传统 yt-dlp 等工具在云服务器上被封锁的限制
  • 成本极低:$0.007/视频,免费额度每月约 714 个视频
  • 零门槛试用:无需信用卡即可注册使用
  • 开箱即用:单一 Python 脚本依赖,仅需 requests

潜在缺点与局限性

  • 依赖第三方服务:APIFY 服务可用性直接影响功能
  • 隐私考量:视频 URL 需发送至 APIFY 服务器处理
  • 字幕覆盖不全:仅能获取 YouTube 官方字幕,无人工上传字幕时返回失败
  • 非实时工具:不适合需要即时响应的交互场景
  • Python 环境依赖:需要本地配置 Python 3 和依赖

适合人群

  • 从云服务器批量处理 YouTube 内容的数据工程师
  • 需要构建视频内容分析 pipeline 的开发者
  • 希望为 AI 工作流获取视频文本输入的技术用户
  • 内容创作者进行竞品分析或素材整理

常规风险

  • API 密钥泄露APIFY_API_TOKEN 需妥善保管,避免硬编码提交至版本控制
  • 成本失控:批量任务前建议测试小规模样本,监控 console.apify.com 用量
  • 服务条款合规:需确保使用场景符合 YouTube 和 APIFY 的服务条款
  • 数据驻留:敏感视频内容的元数据会经过 APIFY 基础设施

安全解读

核心用法

本 Skill 是一个专用于获取 YouTube 视频转录文本的 Python 工具,核心解决云端服务器(AWS、Hetzner 等)被 YouTube 反爬虫机制拦截的问题。通过 APIFY 平台的住宅代理服务,用户可稳定获取视频字幕,无需本地浏览器环境。

主要功能

  • 单视频获取:支持标准 YouTube URL 和短链接(youtu.be)
  • 双格式输出:纯文本(默认)或带时间戳的 JSON 格式
  • 智能本地缓存:重复请求同一视频自动命中缓存,费用为 $0
  • 批量处理模式:通过文件列表批量获取,显示进度和成本估算
  • 多语言支持:可指定偏好语言(如 --lang de

配置要求

仅需两个要素:
1. APIFY_API_TOKEN:免费注册获取,每月 $5 额度(约 714 个视频)

2. Python requests 库pip install requests

显著优点

成本极低:APIFY 免费 tier 无信用卡要求,$0.007/视频,缓存机制让重复请求完全免费。

云原生友好:专为解决云端 IP 被封锁场景设计,无需复杂的代理池或浏览器模拟。

用户体验佳:命令行设计直观,错误提示友好,支持 --cache-stats--clear-cache 等运维命令。

潜在局限

第三方依赖:核心功能依赖 APIFY 服务可用性,若平台调整定价或限制策略,可能影响使用。

仅处理公开内容:无法获取未启用字幕的视频,不支持付费/私密视频。

英语为主:多语言支持依赖视频上传者提供的字幕,自动生成的字幕质量因语言而异。

适合人群

  • 在云端服务器(VPS、云函数)部署自动化工作流的用户
  • 需要批量处理 YouTube 内容的开发者、研究人员、内容创作者
  • 希望避免自行维护代理池或浏览器环境的个人开发者

常规风险

1. API 额度管理:免费 tier 虽 generous,但批量处理前建议使用 --cache-stats 确认缓存状态,避免意外超额。

2. 缓存数据隐私:本地缓存存储视频转录文本,多用户共享环境需确认 YT_TRANSCRIPT_CACHE_DIR 权限设置。

3. 服务连续性:APIFY 为商业 SaaS,长期项目建议关注其定价政策变化,并保留替代方案评估。

Youtube Apify Transcript 内容

scripts文件夹
手动下载zip · 11.1 kB
fetch_transcript.pytext/plain
请选择文件