核心用法
Agentic Paper Digest 是一个自动化的学术论文聚合与摘要系统,主要面向研究人员和AI从业者。其核心工作流包括:
1. 多源抓取:从 arXiv(支持多类别如 cs.CL、cs.AI 等)和 Hugging Face 平台获取最新论文
2. 智能筛选:通过 LLM 进行相关性评分,基于用户定义的 topics.json 主题配置进行分类
3. 摘要生成:对筛选后的论文生成结构化摘要,可选启用 PDF 首页文本提取增强摘要质量
4. 输出交付:支持 CLI JSON 输出或本地 API 服务(端口8000),数据持久化存储于 SQLite
运行模式
- CLI 模式:单次运行,适合定时任务集成
- API 模式:持续服务,支持轮询式工作流,提供
/api/run、/api/papers、/api/topics等端点
显著优点
- 高度可配置:通过环境变量或
.env文件灵活控制模型选择、温度参数、抓取窗口、分类主题等 - 双模型策略:支持分别为相关性判断和摘要生成配置不同强度的模型,优化成本与质量平衡
- 机构加权:affiliations.json 允许对特定研究机构进行加权提升,优先展示权威来源
- 多源整合:同时覆盖 arXiv 和 Hugging Face 两大核心学术平台
- 主题去重:
max_per_topic机制防止单一主题过度占据结果
潜在缺点与局限性
- 依赖外部 LLM:必须配置 OpenAI API Key 或兼容的 LiteLLM 代理,存在服务中断和成本风险
- Python 环境依赖:需要 Python 3 及可选的 PyMuPDF,对非技术用户有一定门槛
- 端口冲突风险:API 模式固定使用 8000 端口,需手动处理占用情况
- 配置复杂度:topics.json 要求主题互斥且 ID 精确匹配,配置不当会导致分类失效
- PDF 解析限制:PDF 文本提取仅首页,且依赖额外依赖安装
- 无内置持久化调度:CLI 模式需配合外部 cron/systemd 实现定时运行
适合人群
- AI/ML 研究人员需跟踪最新论文动态
- 技术团队构建内部论文推荐系统
- 自动化工作流开发者(可与 n8n、Make 等集成)
- 对 arXiv 特定类别(如 cs.CL、cs.CR)有持续监控需求的从业者
常规风险
- API 密钥泄露:
.env文件或环境变量管理不当可能导致密钥暴露 - 成本失控:高频调度配合大模型可能产生意外费用,建议设置预算告警
- 数据隐私:论文元数据和摘要流经第三方 LLM API,敏感研究需注意合规
- 服务可用性:arXiv/Hugging Face API 变更或 LLM 服务中断会影响功能
- SQLite 并发:API 模式下多进程访问 SQLite 可能存在锁竞争,高并发场景建议迁移至 PostgreSQL