Agentic Paper Digest Skill

📚 AI论文自动聚合与智能摘要

research-academia榜 #1

AI驱动的学术文献聚合工具,自动抓取arXiv和Hugging Face最新论文,智能分类并生成结构化摘要,支持本地API服务。

收藏
9.5k
安装
3.3k
版本
1.0.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

Agentic Paper Digest 是一个自动化的学术论文聚合与摘要系统,主要面向研究人员和AI从业者。其核心工作流包括:

1. 多源抓取:从 arXiv(支持多类别如 cs.CL、cs.AI 等)和 Hugging Face 平台获取最新论文
2. 智能筛选:通过 LLM 进行相关性评分,基于用户定义的 topics.json 主题配置进行分类

3. 摘要生成:对筛选后的论文生成结构化摘要,可选启用 PDF 首页文本提取增强摘要质量

4. 输出交付:支持 CLI JSON 输出或本地 API 服务(端口8000),数据持久化存储于 SQLite

运行模式

  • CLI 模式:单次运行,适合定时任务集成
  • API 模式:持续服务,支持轮询式工作流,提供 /api/run/api/papers/api/topics 等端点

显著优点

  • 高度可配置:通过环境变量或 .env 文件灵活控制模型选择、温度参数、抓取窗口、分类主题等
  • 双模型策略:支持分别为相关性判断和摘要生成配置不同强度的模型,优化成本与质量平衡
  • 机构加权:affiliations.json 允许对特定研究机构进行加权提升,优先展示权威来源
  • 多源整合:同时覆盖 arXiv 和 Hugging Face 两大核心学术平台
  • 主题去重max_per_topic 机制防止单一主题过度占据结果

潜在缺点与局限性

  • 依赖外部 LLM:必须配置 OpenAI API Key 或兼容的 LiteLLM 代理,存在服务中断和成本风险
  • Python 环境依赖:需要 Python 3 及可选的 PyMuPDF,对非技术用户有一定门槛
  • 端口冲突风险:API 模式固定使用 8000 端口,需手动处理占用情况
  • 配置复杂度:topics.json 要求主题互斥且 ID 精确匹配,配置不当会导致分类失效
  • PDF 解析限制:PDF 文本提取仅首页,且依赖额外依赖安装
  • 无内置持久化调度:CLI 模式需配合外部 cron/systemd 实现定时运行

适合人群

  • AI/ML 研究人员需跟踪最新论文动态
  • 技术团队构建内部论文推荐系统
  • 自动化工作流开发者(可与 n8n、Make 等集成)
  • 对 arXiv 特定类别(如 cs.CL、cs.CR)有持续监控需求的从业者

常规风险

  • API 密钥泄露.env 文件或环境变量管理不当可能导致密钥暴露
  • 成本失控:高频调度配合大模型可能产生意外费用,建议设置预算告警
  • 数据隐私:论文元数据和摘要流经第三方 LLM API,敏感研究需注意合规
  • 服务可用性:arXiv/Hugging Face API 变更或 LLM 服务中断会影响功能
  • SQLite 并发:API 模式下多进程访问 SQLite 可能存在锁竞争,高并发场景建议迁移至 PostgreSQL

Agentic Paper Digest Skill 内容

暂无文件树

手动下载zip · 4.6 kB
contentapplication/octet-stream
请选择文件