使用说明

核心用法

Agentic Paper Digest 是一个面向科研人员的自动化论文聚合与摘要工具，支持从 arXiv 和 Hugging Face 两个主要学术平台抓取最新论文。用户可通过 CLI 直接运行一次性任务，或启动本地 API 服务实现定时轮询。CLI 模式支持灵活的时间窗口（--window-hours）和信源筛选（--sources arxiv,hf），输出包含运行 ID、处理数量、时间范围等元信息的 JSON 格式结果，便于下游代理消费。API 模式则提供 RESTful 端点，支持触发任务、查询状态和获取论文列表。

显著优点

1. 智能相关性过滤：内置 LLM 驱动的相关性分类器，可根据自定义主题（config/topics.json）自动判断论文匹配度，避免信息过载。
2. 双模式架构：CLI 适合一次性深度检索，API 服务适合持续监控，满足不同工作流需求。
3. 灵活配置：通过环境变量或 .env 文件管理 LLM 密钥（支持 OpenAI 及任意兼容代理），可独立配置摘要模型与相关性模型，实现成本与质量的平衡。
4. PDF 原文增强：可选启用 PyMuPDF 提取首页文本，弥补摘要信息不足的缺陷。
5. 机构加权排序：支持基于作者单位的关键词匹配加权，优先展示知名机构成果。

潜在缺点与局限性

外部依赖较重：必须配置有效的 LLM API 密钥才能运行核心功能，无法离线使用。
Python 环境要求：需要 Python 3 及网络访问，对非技术用户有一定门槛。
单节点 SQLite 存储：数据持久化依赖本地 SQLite，不适合多实例部署或高并发场景。
主题定义敏感：相关性分类器对 topics.json 中的 ID 和描述格式要求严格，配置不当会导致过滤失效。
无内置定时器：API 服务本身不提供调度功能，需配合外部 cron 或工作流引擎实现自动轮询。

适合人群

需要追踪多领域最新进展的机器学习/AI 研究人员
运营学术简报、新闻通讯的内容策展人
希望自动化论文初筛流程的科研团队
构建下游分析管道的开发者（JSON 输出便于集成）

常规风险

API 密钥泄露风险：需在环境变量或 .env 文件中存储 LLM 密钥，共享环境时应注意权限隔离。
成本不可控：若未限制 ARXIV_MAX_RESULTS 或 WINDOW_HOURS，高频运行可能对 LLM API 产生意外费用。
结果质量波动：摘要质量直接依赖所选 LLM 模型，低成本模型可能产生不准确的技术解读。
数据源变动：arXiv 或 Hugging Face 的 RSS/API 格式变更可能导致抓取失效。

安全解读

核心用法

Agentic Paper Digest 是一个面向科研人员的自动化论文追踪工具，通过 CLI 或 API 两种方式运行：

CLI 模式：执行 run_cli.sh 抓取指定时间窗口（默认24小时）的 arXiv 和 Hugging Face 论文，输出 JSON 格式的筛选结果（run_id、seen、kept、window_start/end）
API 模式：启动本地 FastAPI 服务（默认 8000 端口），提供 /api/run、/api/status、/api/papers 等端点，支持轮询工作流集成

配置通过环境变量（.env 文件）或 config/ 目录下的 JSON 文件管理。核心依赖 OpenAI 或 LiteLLM API 进行相关性分类和摘要生成，需用户自行提供 OPENAI_API_KEY 或 LITELLM_API_KEY。

显著优点

双源覆盖：同时抓取 arXiv（cs.CL、cs.AI、cs.LG 等类别可配置）和 Hugging Face 论文，避免遗漏
智能过滤：基于 LLM 的相关性评分 + 主题分类，支持自定义 topics.json 定义研究领域
灵活输出：SQLite 本地存储（data/papers.sqlite3）+ JSON API，便于下游 Agent 消费
可配置性强：时间窗口、抓取数量、PDF 首页文本提取、机构权重 boost 等均可调节

潜在缺点与局限性

外部依赖重：必须配置 OpenAI/LiteLLM API，无离线运行能力；API 费用和可用性直接影响功能
T3 来源风险：核心逻辑托管于个人开发者 GitHub 仓库（matanle51），存在维护中断或账号被盗风险
单层远程代码加载：bootstrap.sh 运行时从 GitHub 克隆或下载 zip，无代码签名验证机制
隐私合规待完善：论文摘要文本需发送至第三方 API，虽符合最小权限原则，但数据删除权利（GDPR）和第三方数据处理存在 warning

适合人群

需要每日追踪 AI/ML 最新论文的研究人员、博士生、技术 PM
希望将论文流集成到个人 Agent 工作流的开发者（支持 JSON 输出和 API 轮询）
有稳定 OpenAI API 访问权限且关注代码来源安全的用户

常规风险

| 风险类型 | 等级 | 说明 |

|---------|------|------|

| 远程代码执行 | 中 | bootstrap.sh 单层拉取 GitHub 代码，若仓库被劫持则受影响 |

| API 密钥泄露 | 低 | 需用户配置密钥，存在误提交至版本控制的风险 |

| 服务可用性 | 低 | 依赖 OpenAI/LiteLLM API，网络或服务商故障将导致功能中断 |

| 数据隐私 | 低 | 论文摘要上传至第三方 API，虽无明文禁止但需注意合规 |

建议用户 Fork 上游仓库自行维护，定期审查更新，并严格管理 .env 文件权限（chmod 600）。

arxiv research-automation llm-summarization academic-papers huggingface cli-tool api-server

Agentic Paper Digest Skill 内容

scripts文件夹

手动下载zip · 4.6 kB

bootstrap.shtext/x-shellscript

请选择文件