使用说明

核心用法

Jina Reader 是一个通过 Jina AI API 实现网页内容提取的 CLI 工具，提供三种工作模式：

read 模式：将任意 URL 转换为干净的 Markdown，支持 CSS 选择器精确定位、动态渲染（headless Chrome）、广告过滤等功能
search 模式：执行网页搜索并返回前 5 条结果的完整内容，支持 JSON 输出便于结构化处理
ground 模式：对特定陈述进行事实核查，调用约 30 万 tokens，适合自动化事实验证场景

工具支持地理代理（如 --proxy br 访问巴西内容）、缓存控制、多种输出格式（markdown/html/text/screenshot），并提供 JSON Schema 数据提取能力。

显著优点

1. IP 保护：请求通过 Jina 基础设施路由，服务器真实 IP 不暴露，适合隐私敏感场景
2. 开箱即用：免费 tier 提供 1000 万 tokens 且无需注册，API key 即时获取
3. 动态渲染：内置 headless Chrome，可处理 JavaScript -heavy 的现代网站
4. 内容净化：自动去除广告、导航等干扰元素，输出阅读友好的 Markdown
5. 成本可控：标准阅读约 $0.005/页，搜索有固定 10K tokens 计费模式

潜在缺点与局限

第三方依赖：核心功能完全依赖 Jina AI 服务可用性，存在单点故障风险
延迟问题：ground 模式约 30 秒响应时间，不适合实时交互场景
定价分层：ReaderLM-v2 成本为标准的 3 倍，大规模使用需精细成本控制
数据隐私：内容需上传至 Jina 服务器处理，敏感信息存在泄露风险
代理覆盖有限：仅支持特定国家代码，全球覆盖度不及专业代理服务

适合人群

自动化内容聚合与 RSS 替代方案开发者
需要 IP 隐藏的新闻监测、竞品分析团队
AI Agent/RAG 系统需要高质量网页文本输入的场景
轻度事实核查自动化需求（非法律/医疗级）

常规风险

API 密钥泄露风险：需妥善保管 JINA_API_KEY
服务条款合规：大规模爬取需遵守目标网站的 robots.txt 和使用条款
内容准确性：ground 模式结果受限于搜索来源质量，不可作为终极权威依据
供应商锁定：深度集成后迁移至其他提取方案成本较高

web-scraping api-client content-extraction search fact-checking jina-ai markdown cli-tool

Jina Reader 内容

暂无文件树

手动下载zip · 3.3 kB

contentapplication/octet-stream

请选择文件