Agentic Paper Digest Skill

🧬 智能论文聚合 · 自动摘要追踪

ai/ml-research榜 #1

开源学术研究助手,自动聚合 arXiv 与 Hugging Face 最新论文,智能分类并生成结构化摘要,支持 CLI 与 API 双模式运行。

收藏
9.9k
安装
3.3k
版本
0.3.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

Agentic Paper Digest 是一款面向学术研究者的自动化论文聚合与摘要工具,通过智能代理工作流从 arXiv 和 Hugging Face 两大平台抓取最新论文,经 LLM 分类筛选后生成结构化摘要输出。

主要使用场景

  • 批量获取指定时间窗口内的最新 AI/ML 相关论文
  • 生成 JSON 格式论文 feed,供下游代理或工作流消费
  • 部署本地 API 服务,支持轮询式论文监控

运行方式

  • CLI 模式(推荐):bash run_cli.sh,支持 --window-hours--sources 等参数
  • API 模式bash run_api.sh 启动服务,提供 /api/run/api/papers/api/status 等端点

核心配置

  • 支持 OpenAI 及任意 LiteLLM 兼容的 LLM 服务
  • 通过 topics.json 定义研究主题与关键词,实现智能分类
  • 可启用 PDF 首页文本提取(ENABLE_PDF_TEXT=1)增强摘要质量
  • 支持机构加权排名(affiliations.json

显著优点

1. 多源聚合:同时覆盖 arXiv(cs.CL, cs.AI, cs.LG 等)与 Hugging Face,减少信息孤岛
2. 智能过滤:基于 LLM 的相关性分类器,自动过滤低相关论文

3. 灵活部署:CLI 脚本即开即用,API 模式便于集成到现有工作流

4. 可定制主题:JSON 配置驱动,主题定义与 LLM 分类器解耦,便于精细调优

5. 轻量级存储:SQLite 本地存储,无需外部数据库依赖

潜在局限

  • LLM 依赖:核心功能(相关性判断、摘要生成)完全依赖外部 LLM,成本高且存在延迟
  • 无内置调度:需配合 cron/systemd 等外部工具实现定时运行
  • PDF 解析可选PyMuPDF 为额外依赖,未安装时仅依赖摘要文本
  • 单用户设计:SQLite 存储与本地 API,未针对多用户并发优化
  • 主题维护成本:主题定义需人工维护,领域快速演进时可能失效

适合人群

  • AI/ML 研究者需跟踪最新文献但时间有限
  • 研究小组需统一论文监控入口
  • 自动化工作流开发者需结构化论文 feed
  • 对 arXiv/HF 内容有明确领域聚焦的技术团队

常规风险

  • API 密钥泄露OPENAI_API_KEYLITELLM_API_KEY 需妥善保管,建议通过 .env 文件管理
  • 成本控制:高频轮询 + LLM 调用可能产生显著费用,建议合理设置 WINDOW_HOURS 和主题限制
  • 数据时效性:依赖上游平台 RSS/API,存在抓取延迟或接口变更风险
  • 分类偏差:LLM 主题分类可能存在误判,重要论文建议人工复核

Agentic Paper Digest Skill 内容

暂无文件树

手动下载zip · 4.6 kB
contentapplication/octet-stream
请选择文件