arxiv-search-collector

📚 模型驱动的 arXiv 文献采集助手

🥥64总安装量 18评分人数 24
100% 的用户推荐

基于 arXiv 官方 API,支持模型驱动查询规划与多语言输出,自动去重并结构化整理文献,助力研究者高效构建论文数据集。

A

基本安全,请在特定环境下使用

  • 来自社区或个人来源,建议先隔离验证
  • ✅ 无高危代码执行:未发现 eval/exec/system 等危险函数,无 SQL/命令注入漏洞
  • ✅ 数据隐私合规:仅访问 arXiv 公开 API,无敏感信息收集,缓存数据完全本地可控
  • ✅ 输入验证完善:所有路径经 pathlib 安全检查,参数类型与格式严格校验
  • ⚠️ Subprocess 调用:使用 `subprocess.run` 调用同级目录脚本,虽经 `shlex.quote` 转义但仍建议审查脚本完整性
  • ⚠️ T3 来源风险:社区个人项目,建议在使用前进行代码审计,关注后续更新维护

使用说明

ArXiv Search Collector 是一款面向学术研究领域的模型驱动型文献采集工具,专为需要系统性构建论文数据集的研究人员设计。该工具摒弃传统的基于规则的启发式过滤,转而采用大语言模型进行查询规划与相关性判断,通过结构化的工作流实现从主题输入到纯净数据集构建的全流程自动化。

核心用法遵循"初始化-获取-过滤-合并"的四阶段流水线。用户首先通过 init_collection_run.py 创建采集任务,设定研究主题、关键词、学科分类及目标论文数量范围;随后进入查询规划阶段,由模型将主题扩展为多个互补的检索式(原始词 + 同义词扩展),并采用 OR/AND 组合策略优化召回率;接着通过 fetch_queries_batch.py 串行调用 arXiv API 获取元数据,利用指数退避算法处理限流;最后由模型基于索引筛选相关论文,经 merge_selected_papers.py 去重合并,生成结构化的单论文目录与索引文件。若结果不满足要求,支持增量迭代优化查询策略。

显著优点体现在其架构设计的智能性与稳健性。模型驱动的决策机制允许处理模糊的学术概念边界,通过语义层面的相关性判断替代简单的关键词匹配;原生支持多语言输出(包括中文),可自动生成对应语言的 Markdown 报告;内置完善的 API 限流保护(默认 5 秒间隔、多级重试机制),避免触发 arXiv 的反爬策略;增量式迭代模式允许在保留已有成果的基础上调整策略,显著降低重复工作成本;输出采用标准的 JSON + Markdown 双格式,便于后续分析与人工复核。

潜在局限性主要包括来源可信度与执行环境要求。作为 T3 级社区项目,其长期维护稳定性与代码审计深度不及企业级产品;工具效能高度依赖宿主模型的推理能力,若模型对学术领域理解不足,可能导致查询规划偏差或过滤失误;仅支持 arXiv 公开库,无法获取付费或预印本之外的文献;需要本地 Python 3 环境及一定的命令行操作基础,对非技术背景用户存在门槛。

适用目标群体主要为高校科研人员、研究生及工业界研究部门,特别适合需要进行系统性文献综述、构建领域基准数据集或追踪特定技术路线演进的场景。对于依赖 arXiv 作为首要信息源的计算机科学、物理学、数学等领域的研究者尤为实用。

常规风险提示包括:尽管已实现参数转义,但 subprocess 调用本地脚本仍存在理论上的命令注入风险(需确保脚本目录未被篡改);大量查询可能积累显著磁盘缓存(位于 --run-dir 下的 query_results/),需定期清理;API 调用受 arXiv 服务端稳定性与限流策略制约,极端情况下可能获取延迟;输出目录需避免指向系统关键路径,防止文件覆盖风险。

arxiv-search-collector 内容

文件夹图标agents文件夹
文件夹图标references文件夹
文件夹图标scripts文件夹
手动下载zip · 26.3 kB
openai.yamltext/plain
请选择文件