paper-fetcher

📄 一键获取学术文献的科研助手

基于Sci-Hub的学术论文自动下载工具,支持DOI解析与PDF批量获取,为科研人员提供便捷的文献获取通道,但存在法律合规与注入安全风险。

收藏
15.2k
安装
3.8k
版本
v1.0.0
CLS 安全性认证2026-05-05
点击查看完整报告 >

使用说明

核心用法

Paper Fetcher 是一款面向科研场景的自动化文献获取工具,核心功能是通过 DOI(数字对象标识符)从 Sci-Hub 平台下载学术论文 PDF。用户只需提供 DOI 字符串(支持带或不带 https://doi.org// 前缀),工具即可自动完成:解析 DOI → 访问 Sci-Hub → 定位 PDF 下载链接 → 保存至本地 research/papers// 目录的全流程。支持单篇获取与批量处理,文件名自动规范化(将 DOI 中的斜杠替换为下划线),便于后续与 Obsidian 等知识管理工具联动构建个人文献库。

显著优点

1. 操作极简:无需手动浏览 Sci-Hub 网页,一句话指令即可完成下载,大幅降低文献获取门槛。
2. 批量处理能力:支持同时提交多个 DOI,自动串行处理,适合系统性文献调研场景。

3. 生态集成友好:输出路径固定且规范,易于与 Obsidian Sync、研究自动化工作流等工具链整合。

4. 零配置依赖:无需 API 密钥或账号体系,开箱即用。

潜在缺点与局限性

1. 法律合规风险:Sci-Hub 的运营模式在多数司法管辖区存在版权争议,使用该工具可能触及当地法律法规,机构用户需特别审慎。
2. 服务稳定性不可控:Sci-Hub 域名频繁更换(当前硬编码为 sci-hub.su),一旦服务中断或域名失效,工具将完全失效。

3. 元数据缺失:仅下载 PDF 文件,不提取标题、作者、摘要等元数据,需配合其他工具完成文献管理。

4. 网络依赖性强:无离线缓存或失败重试机制,网络波动易导致任务中断。

适合的目标群体

  • 独立科研人员:缺乏机构数据库访问权限的个体研究者
  • 学生群体:需要快速获取课程论文或毕业论文参考文献
  • 文献调研场景:系统性综述、Meta 分析等需要批量下载论文的研究阶段
  • 个人知识管理用户:配合 Obsidian、Zotero 等工具构建本地文献库

使用风险

1. 法律风险:下载受版权保护的内容可能违反当地法律,部分国家/地区对 Sci-Hub 访问有明确限制。
2. 注入安全隐患:DOI 参数通过 f-string 直接拼接 URL,未完全 URL 编码,存在构造恶意请求的理论可能。

3. 文件系统风险:文件名清理逻辑简单(仅替换 /\),路径遍历防护不足;临时文件使用固定名称,多进程场景可能冲突。

4. 供应链风险:硬编码的 Sci-Hub 域名可能被劫持或污染,下载内容完整性无校验机制。

安全解读

核心用法

paper-fetcher 是一款自动化学术文献获取工具,用户只需提供论文 DOI,即可自动从 Sci-Hub 下载 PDF 并保存至 research/papers/ 目录。支持单篇或批量获取,兼容带 https://doi.org/ 前缀或不带的 DOI 格式。

典型工作流程:
1. 用户输入 DOI(如 10.1038/nature12345

2. 工具自动访问 https://www.sci-hub.su/DOI

3. 定位 PDF 下载链接并获取文件

4. 保存为规范化文件名(如 paper_10.1038_nature12345.pdf

5. 返回确认信息及文件路径

显著优点

  • 极简依赖:仅用 Python 标准库(subprocess 调用 curl),无第三方包,供应链攻击面极小
  • 开箱即用:无需 API 密钥或复杂配置,直接通过 DOI 即可获取
  • 本地归档:自动建立结构化文献库,便于与 Obsidian 等知识管理工具联动
  • 批量处理:支持一次提交多个 DOI,顺序处理批量下载

潜在缺点与局限性

  • 法律合规风险:Sci-Hub 在多数国家/地区因版权争议被屏蔽或认定为非法,使用者需自行承担法律责任
  • 服务稳定性:依赖 Sci-Hub 域名(当前为 sci-hub.su),镜像站点频繁更换可能导致访问失败
  • 无 DOI 验证:仅简单清洗前缀,未校验 DOI 格式有效性,无效 DOI 会导致请求失败
  • 系统依赖:调用外部 curl 命令,Windows 或精简系统环境可能不兼容
  • T3 来源:个人开发者维护(biohackerrrrrr),缺乏企业级代码审计与长期维护保障

适合人群

  • 科研人员、学生需要快速获取付费墙论文进行个人学习研究
  • 已了解当地版权法规,确认 Sci-Hub 访问合法性的用户
  • 希望自动化构建本地 PDF 文献库的技术用户
  • 不适合:对法律风险敏感、或所在地区明确禁止 Sci-Hub 的机构环境

常规风险

  • 版权诉讼风险:部分国家(如美国、英国、德国等)对 Sci-Hub 访问及下载行为有明确法律限制
  • 域名劫持:Sci-Hub 镜像站点众多,存在钓鱼网站伪装风险(本工具硬编码域名相对降低此风险)
  • 输入注入:当前 DOI 处理未严格过滤,理论上存在构造特殊字符导致路径遍历的可能性(实际风险较低)
  • 网络监控:访问 Sci-Hub 域名可能被网络服务商或机构防火墙记录

> ⚠️ 重要提示:建议优先通过高校图书馆、机构订阅、开放获取(Open Access)或作者直接联系等合法渠道获取论文。

paper-fetcher 内容

scripts文件夹
手动下载zip · 3.2 kB
fetch_paper.pytext/plain
请选择文件