使用说明

核心用法

Agentic Paper Digest 是一款面向研究人员的智能论文聚合工具，支持从 arXiv 和 Hugging Face 自动获取最新论文，经 LLM 相关性分类与摘要生成后，输出结构化 JSON 数据。

主要功能：

双源抓取：支持 arXiv（按学科分类）和 Hugging Face（按更新时间）双渠道获取
智能筛选：通过可配置的 topics.json 定义研究兴趣，LLM 自动判断论文相关性
摘要生成：对命中主题的论文生成高质量摘要，可选 PDF 首页文本增强
API 服务：提供 RESTful API 支持轮询工作流，包括运行触发、状态查询、论文列表等端点
灵活配置：支持环境变量、.env 文件及 JSON 配置文件多层配置

使用流程：
1. 运行 bootstrap 脚本获取代码（支持 git 或 curl/wget 回退）
2. 配置 API 密钥（OpenAI 或兼容服务）和研究主题
3. CLI 模式直接运行，或启动 API 服务供其他代理调用

显著优点

高度可定制：主题、模型、温度、抓取窗口、学科分类均可细粒度调整
多模型策略：可为相关性判断和摘要生成分别指定不同模型（如轻量模型筛选用，强模型摘要）
机构加权：通过 affiliations.json 对特定研究机构论文提升排名
数据持久化：SQLite 存储便于历史查询和增量更新
开源透明：GitHub 开源，可审计代码逻辑

潜在缺点与局限性

依赖外部 API：核心功能依赖 OpenAI 或兼容 LLM 服务，存在成本和可用性风险
PDF 解析额外依赖：ENABLE_PDF_TEXT 功能需单独安装 PyMuPDF
arXiv 抓取限制：受 arXiv API 速率限制，大量抓取需分页处理
分类准确性瓶颈：LLM 主题分类质量直接影响结果，需反复调优 topic 定义
无内置去重机制：同一论文跨天可能出现重复，需下游处理
仅支持英文源：arXiv 和 HF 以英文为主，非英语论文覆盖不足

适合人群

AI/ML 研究人员需要追踪领域最新进展
学术机构图书馆构建自动化文献监测
技术博主或 newsletter 作者需要内容素材
研发团队跟踪竞品技术动态

常规风险

API 密钥泄露：.env 文件管理不当可能导致密钥暴露
LLM 幻觉：摘要生成可能存在事实偏差，需人工核验关键信息
成本不可控：高频运行或大批量抓取可能产生意外 API 费用
数据合规：抓取 HF 内容需遵守其服务条款

安全解读

核心用法

Agentic Paper Digest 是一个轻量级学术文献追踪工具，通过封装 Python 脚本实现以下功能：

1. 自动抓取：从 arXiv API 和 Hugging Face 论文库获取最新论文元数据
2. 智能筛选：使用 LLM（OpenAI/LiteLLM）对论文进行相关性分类和摘要生成
3. 灵活输出：支持 CLI JSON 输出或本地 FastAPI 服务器（端口 8000），方便下游代理集成
4. 可配置工作流：通过 topics.json 定义研究主题，settings.json 调整抓取参数，affiliations.json 设置机构权重偏好

显著优点

开箱即用：提供一键 bootstrap 脚本，自动处理 git/curl 回退、虚拟环境创建和依赖安装
研究导向设计：支持按主题分类、机构加权、PDF 首页文本提取（需 PyMuPDF）等学术场景需求
透明可控：所有配置外置为 JSON，环境变量支持 .env 文件，便于版本管理和团队协作
双模式运行：CLI 适合一次性任务和 CI/CD 集成，API 模式支持定时轮询和实时查询

潜在局限与风险

| 方面 | 说明 |

|------|------|

| **供应链安全** | bootstrap.sh 动态从 GitHub 拉取最新代码（L1 级风险），无版本锁定或完整性校验 |

| **API 依赖** | 功能强依赖 OpenAI/LiteLLM API，需妥善管理密钥；网络中断将完全失效 |

| **数据覆盖** | 仅支持 arXiv 和 Hugging Face，不含 Google Scholar、Semantic Scholar 等主流平台 |

| **本地服务攻击面** | 启动 API 服务器后，本地 8000 端口暴露（虽可配置），多一层安全隐患 |

| **隐私合规** | 论文元数据和摘要需发送至第三方 LLM 服务，存在数据外泄风险 |

适合人群

AI/ML 研究者：需要每日跟踪 arXiv cs.CL、cs.LG 等类别新论文
技术团队负责人：希望自动化团队文献共享流程
开源爱好者：愿意审查代码、接受个人开发者维护项目的用户

常规风险管控建议

1. 密钥管理：使用 chmod 600 .env 限制文件权限，定期轮换 API Key
2. 版本锁定：手动修改 bootstrap.sh 指定 REPO_TAG 到特定 commit，避免自动拉取最新代码
3. 网络隔离：在受控环境中运行，监控对 api.openai.com、arxiv.org、huggingface.co 的出站连接
4. 离线备份：定期导出 data/papers.sqlite3，防止服务中断导致数据丢失

arxiv hugging-face paper-digest llm research-automation literature-review academic-tools openai-compatible rest-api python

Agentic Paper Digest Skill 内容

scripts文件夹

手动下载zip · 4.6 kB

bootstrap.shtext/x-shellscript

请选择文件