使用说明

核心用法

Video Understanding 是一款基于 Google Gemini 多模态能力的视频分析工具，通过命令行脚本实现视频内容的自动化理解。用户只需提供视频 URL，即可获取包含逐字转录、视觉描述、内容摘要和说话人识别的结构化 JSON 输出。工具支持两种工作模式：YouTube 视频直接通过 Gemini 原生接口分析，无需下载；其他 1000+ 站点（Loom、TikTok、Vimeo、Twitter/X、Instagram 等）则通过 yt-dlp 下载后上传至 Gemini File API 处理。

基础用法极为简洁：：uv run scripts/analyze_video.py "<url>" 即可触发完整分析。进阶功能包括 -q 参数针对特定问题获取答案、-p 参数完全自定义提示词、、--download-only 纯下载模式，以及 --raw 原始文本输出。模型默认采用 gemini-2.5-flash，支持通过 -m 切换其他 Gemini 模型。

显著优点

多源兼容性是最大亮点，yt-dlp 支持的 1000+ 视频站点全覆盖，解决了传统视频分析工具平台受限的痛点。无需本地 GPU，所有计算由 Google 云端完成，普通设备即可处理长视频。结构化输出设计精良，转录带时间戳、描述涵盖视觉元素、摘要精炼，可直接用于内容归档或二次创作。YouTube 零下载优化显著提升了处理速度，大文件支持最高 20GB（付费账户），满足专业场景需求。资源管理方面，临时文件自动清理机制完善，，--keep 选项给予用户灵活控制权。

潜在缺点与局限性

外部依赖较重，必须预先安装 yt-dlp、ffmpeg 并配置 GEMINI_API_KEY，环境准备成本高于纯 API 方案。URL 安全风险是核心隐患，用户输入直接传递至子进程，恶意构造的 URL 可能触发非预期行为。网络稳定性依赖，非 YouTube 视频需完整下载后上传，大文件在弱网环境易中断，且 Gemini File API 的异步轮询机制增加了整体耗时。成本不可控，Gemini API 按 token 计费，长视频或高频使用可能产生意外费用，工具本身未提供用量预警机制。平台政策风险，yt-dlp 在某些司法管辖区存在法律争议，部分站点可能随时失效。

适合的目标群体

内容创作者与运营人员需要快速提取视频要点、生成字幕或监控竞品动态；研究人员与教育工作者处理大量在线课程、学术讲座，需要结构化归档；产品经理与 UX 设计师进行用户访谈视频分析、可用性测试回顾；媒体监测与舆情分析团队追踪社交媒体视频内容；开发者与自动化工程师将其集成至内容处理流水线。不适合对数据隐私极度敏感的企业内网环境，或无法配置外部 API 密钥的受限场景。

使用风险

性能层面，首次运行需通过 uv 安装 Python 依赖，冷启动延迟明显；大视频下载+上传的双传输流程对带宽要求高。依赖项风险，yt-dlp 需持续更新以应对站点反爬机制，ffmpeg 版本差异可能导致音视频合并异常。API 稳定性，Gemini 模型版本迭代可能改变输出格式，结构化 JSON 解析存在未来兼容性风险。合规风险，下载受版权保护内容可能违反服务条款，用户需自行承担法律责任。

安全解读

核心用法

Video Understanding Skill 基于 Google Gemini 多模态能力，实现视频内容的智能解析。用户只需提供视频 URL，即可获得结构化 JSON 输出，包含带时间戳的逐字转录、视觉场景描述、内容摘要及说话人识别。支持两种工作模式：YouTube 视频可直接由 Gemini 处理（最快路径），其他站点视频则通过 yt-dlp 下载后上传至 Gemini File API 分析。

命令行调用灵活：基础分析直接传 URL；追加 -q 参数可针对特定内容提问；-p 支持完全自定义提示词覆盖；--download-only 模式仅执行下载跳过分析。模型默认使用 gemini-2.5-flash，可通过 -m 切换。文件大小限制 500MB（可配置），大视频自动处理，临时文件默认自动清理。

显著优点

覆盖极广：依托 yt-dlp 支持 YouTube、TikTok、Twitter/X、Instagram、Loom、Vimeo 等 1000+ 视频站点，几乎涵盖所有主流平台。效率优化：YouTube 直连模式免除下载步骤，响应速度显著提升。输出结构化：默认返回 JSON 格式，包含 transcript、description、summary、speakers 等字段，便于程序化对接。零配置依赖：通过 uv 自动管理 Python 依赖，仅需提前安装 yt-dlp 和 ffmpeg 两个系统工具。成本友好：Gemini File API 免费层支持 2GB 文件，满足大多数场景。

潜在缺点与局限性

外部依赖重：功能强依赖 yt-dlp 和 ffmpeg 的本地可用性，跨平台部署时环境配置可能成为卡点。网络波动敏感：非 YouTube 视频需完整下载后上传，大文件在弱网环境下耗时较长且存在中断风险。API 额度消耗：视频分析消耗 Gemini 多模态 token，高频使用需注意配额管理。隐私顾虑：视频内容需上传至 Google 服务器处理，敏感内容存在合规考量。定制化有限：虽然支持自定义提示词，但无法微调模型或训练专属视频理解能力。

适合人群

内容创作者与运营：批量提取视频脚本、生成内容摘要
产品经理与设计师：快速分析竞品演示视频、用户访谈录像
研究人员与记者：多平台视频资料整理与信息提取
开发者：构建基于视频内容的自动化工作流

常规风险

主要风险集中于外部命令执行（yt-dlp 下载）和临时文件管理。代码已实施 URL 正则验证、文件大小限制、参数列表传递（防注入）、自动清理等控制措施。网络层面仅访问 Gemini API 和用户指定视频 URL，无未声明外联。建议生产环境加强 URL 域名白名单、添加操作日志审计，并明确告知用户视频数据的上传处理流程。

content-media ai-ml api productivity education-research automation

video-understanding 内容

scripts文件夹

手动下载zip · 4.9 kB

analyze_video.pytext/plain

请选择文件