Agentic Paper Digest Skill

📑 AI智能追踪前沿论文

research-assistant榜 #1

AI驱动的学术论文智能摘要工具,自动抓取arXiv/Hugging Face最新论文,通过双LLM架构分类筛选并生成结构化摘要,适合科研工作者快速追踪前沿。

收藏
10.3k
安装
3.3k
版本
0.1.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

Agentic Paper Digest 是一个全自动学术论文追踪与摘要系统,采用双LLM架构(相关性分类器+摘要生成器)处理arXiv和Hugging Face的每日论文流。

工作流程
1. 抓取:按时间窗口(WINDOW_HOURS)和分类(ARXIV_CATEGORIES)拉取arXiv/HF论文元数据

2. 过滤:LLM分类器根据topics.json中的自定义主题进行相关性评分

3. 摘要:高相关论文送入摘要模型生成结构化总结

4. 输出:支持JSON流、SQLite存储、REST API三种消费模式

运行模式

  • CLI一次性执行:run_cli.sh --window-hours 24 --sources arxiv,hf
  • API服务模式:run_api.sh 提供轮询端点(/api/run, /api/papers, /api/topics

显著优点

  • 主题可编程:通过JSON配置自定义研究兴趣,非硬编码关键词匹配
  • 双模型策略:可独立配置轻量模型做快速过滤、强模型做深度摘要,优化成本
  • 智能排序:结合相关性得分+机构加权(affiliations.json)+主题配额(max_per_topic
  • PDF全文增强:可选启用PyMuPDF提取首页文本,弥补摘要信息不足
  • 生态兼容:原生支持OpenAI及任意OpenAI-compatible端点(via LiteLLM)

潜在局限

  • 依赖外部LLM:无本地模型支持,必须配置API密钥(成本敏感场景受限)
  • 单节点架构:SQLite存储和本地API服务器,不适合多用户/高并发场景
  • 英文内容为主:arXiv/HF数据源及LLM摘要均为英文,中文论文覆盖有限
  • 主题设计门槛:主题互斥性假设较强,交叉领域论文可能分类困难
  • 无持久化工作流:API模式需外部调度器触发,无内置定时任务

适合人群

  • 需要每日追踪多领域前沿的研究人员/实验室(AI/ML/NLP/安全方向最优)
  • 构建个人知识库的PhD学生或独立研究者
  • 希望将论文流集成到自动化工作流的Agent开发者

常规风险

  • API费用失控:高ARXIV_MAX_RESULTS+长窗口+强模型组合可能产生意外成本
  • 数据时效性:依赖arXiv发布节奏,非实时预印本平台
  • 分类偏差:LLM分类器对新颖交叉主题可能存在系统性误判
  • 隐私泄露:PDF文本提取可能意外包含作者联系方式等敏感信息

Agentic Paper Digest Skill 内容

暂无文件树

手动下载zip · 4.6 kB
contentapplication/octet-stream
请选择文件