使用说明

核心用法

Firecrawl Skill 基于 Firecrawl 官方 API，提供完整的网页抓取与数据提取能力。用户通过 fc.py 脚本可直接调用以下功能：

1. Markdown 转换：将任意 URL 转为干净 Markdown，支持 JavaScript 渲染内容，可选 --main-only 过滤导航/页脚噪声
2. 网页截图：全页截图捕获，输出为 PNG 格式
3. 结构化数据提取：基于 JSON Schema 或自然语言提示，精准提取特定字段
4. 网络搜索：集成搜索能力，获取结果页面内容（需付费套餐）
5. 文档站爬取：递归爬取整站文档，适合框架学习，支持输出目录自定义
6. 站点地图：先 map 发现 URL 结构，再决定爬取范围，避免积分浪费

显著优点

官方 API 封装：直接对接 Firecrawl 成熟服务，无需自建爬虫基础设施
JS 渲染支持：自动处理现代前端框架（React/Vue/Next.js）生成的动态内容
多格式输出：Markdown、截图、结构化 JSON，覆盖常见数据获取场景
成本可控：免费 500 积分/月，1 积分=1 页面，适合中小规模任务
文档爬取优化：针对技术文档站设计，配合 --limit 参数防止过度消耗

潜在局限

网络依赖：完全依赖 Firecrawl 云服务，离线/内网环境不可用
付费门槛：高频使用或搜索功能需升级付费套餐
速率与并发限制：受 API 配额约束，大规模爬取需分批次执行
数据隐私：目标页面内容需上传至第三方服务处理，敏感数据需谨慎

适合人群

开发者需要快速获取技术文档、API 参考内容
研究人员批量抓取公开网页数据进行结构化分析
产品经理/设计师需要网页截图或竞品内容提取
AI 应用构建者需要为 RAG 流程获取干净网页文本

常规风险

API Key 泄露：FIRECRAWL_API_KEY 环境变量需妥善保管，避免硬编码提交
积分耗尽未预警：爬取大站时未设 --limit 可能导致免费额度快速耗尽
目标站反爬：高频请求可能触发源站防护，建议合理设置间隔、尊重 robots.txt
内容准确性：自动提取的结构化数据需人工校验，Schema 设计不当可能漏字段

安全解读

核心功能

Firecrawl 是一个专注于网页内容获取的实用型 Skill，通过与 Firecrawl API 集成，提供五种核心能力：

1. Markdown 转换 (markdown): 将任意网页转换为干净的 Markdown 格式，支持 JavaScript 渲染的页面，可选仅提取主内容区（跳过导航/页脚）
2. 页面截图 (screenshot): 捕获完整网页截图并保存为图片文件
3. 结构化数据提取 (extract): 基于 JSON Schema 从页面提取特定字段，支持自定义提示词增强提取精度
4. 网页搜索 (search): 联网搜索并获取结果内容（可能需付费套餐）
5. 站点爬取 (crawl): 深度爬取文档站点，适合快速学习新框架/库
6. URL 映射 (map): 发现网站所有可用 URL 后再决定抓取策略

显著优点

功能聚焦明确: 专为开发者场景设计，特别适合 AI 辅助编程时的文档摄取
JavaScript 渲染支持: 能处理现代 SPA 应用，优于传统静态抓取工具
结构化提取: Schema 驱动的数据提取能力，适合价格监控、内容聚合等场景
API 密钥管理规范: 从环境变量读取，无硬编码凭证
免费额度友好: 500 积分/月起步，单页面成本低廉

潜在局限

外部依赖较重: 完全依赖 Firecrawl 服务可用性，存在供应商锁定风险
网络环境要求: 需稳定访问 api.firecrawl.dev 及目标站点
付费墙限制: 搜索功能及部分高级特性可能需要升级套餐
积分消耗意识: 爬取大文档站时需主动设置 --limit 避免超额

适合人群

需要快速摄取技术文档的开发者/AI 辅助编程用户
构建价格监控、新闻聚合等自动化工作流的数据工程师
需要网页截图或 Markdown 备份的内容创作者

常规风险

供应链安全: 依赖外部 firecrawl Python 包，建议从官方 PyPI 源安装
数据隐私: 通过第三方 API 中转网页内容，敏感数据需谨慎评估
成本控制: 大站点爬取易消耗积分，建议先用 map 探查规模
输出文件管理: 截图和爬取结果写入本地文件系统，注意路径验证避免覆盖

web-scraping data-extraction markdown screenshot api-integration documentation crawling

Firecrawler 内容

手动下载zip · 4.5 kB

fc.pytext/plain

请选择文件