Agentic Paper Digest Skill

🎓 智能论文聚合与摘要生成引擎

ai-research榜 #7

自动化抓取 arXiv 和 Hugging Face 最新论文,通过 LLM 智能筛选主题并生成结构化摘要,输出 JSON 供下游代理使用。

收藏
10.7k
安装
3.3k
版本
0.2.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

Agentic Paper Digest 是一款面向研究人员的智能论文聚合工具,支持从 arXiv 和 Hugging Face 自动获取最新论文,经 LLM 相关性分类与摘要生成后,输出结构化 JSON 数据。

主要功能:

  • 双源抓取:支持 arXiv(按学科分类)和 Hugging Face(按更新时间)双渠道获取
  • 智能筛选:通过可配置的 topics.json 定义研究兴趣,LLM 自动判断论文相关性
  • 摘要生成:对命中主题的论文生成高质量摘要,可选 PDF 首页文本增强
  • API 服务:提供 RESTful API 支持轮询工作流,包括运行触发、状态查询、论文列表等端点
  • 灵活配置:支持环境变量、.env 文件及 JSON 配置文件多层配置

使用流程:
1. 运行 bootstrap 脚本获取代码(支持 git 或 curl/wget 回退)

2. 配置 API 密钥(OpenAI 或兼容服务)和研究主题

3. CLI 模式直接运行,或启动 API 服务供其他代理调用

显著优点

  • 高度可定制:主题、模型、温度、抓取窗口、学科分类均可细粒度调整
  • 多模型策略:可为相关性判断和摘要生成分别指定不同模型(如轻量模型筛选用,强模型摘要)
  • 机构加权:通过 affiliations.json 对特定研究机构论文提升排名
  • 数据持久化:SQLite 存储便于历史查询和增量更新
  • 开源透明:GitHub 开源,可审计代码逻辑

潜在缺点与局限性

  • 依赖外部 API:核心功能依赖 OpenAI 或兼容 LLM 服务,存在成本和可用性风险
  • PDF 解析额外依赖ENABLE_PDF_TEXT 功能需单独安装 PyMuPDF
  • arXiv 抓取限制:受 arXiv API 速率限制,大量抓取需分页处理
  • 分类准确性瓶颈:LLM 主题分类质量直接影响结果,需反复调优 topic 定义
  • 无内置去重机制:同一论文跨天可能出现重复,需下游处理
  • 仅支持英文源:arXiv 和 HF 以英文为主,非英语论文覆盖不足

适合人群

  • AI/ML 研究人员需要追踪领域最新进展
  • 学术机构图书馆构建自动化文献监测
  • 技术博主或 newsletter 作者需要内容素材
  • 研发团队跟踪竞品技术动态

常规风险

  • API 密钥泄露.env 文件管理不当可能导致密钥暴露
  • LLM 幻觉:摘要生成可能存在事实偏差,需人工核验关键信息
  • 成本不可控:高频运行或大批量抓取可能产生意外 API 费用
  • 数据合规:抓取 HF 内容需遵守其服务条款

Agentic Paper Digest Skill 内容

暂无文件树

手动下载zip · 4.6 kB
contentapplication/octet-stream
请选择文件