核心用法
Agentic Paper Digest 是一款面向学术研究者的自动化论文聚合与摘要工具,通过智能代理工作流从 arXiv 和 Hugging Face 两大平台抓取最新论文,经 LLM 分类筛选后生成结构化摘要输出。
主要使用场景:
- 批量获取指定时间窗口内的最新 AI/ML 相关论文
- 生成 JSON 格式论文 feed,供下游代理或工作流消费
- 部署本地 API 服务,支持轮询式论文监控
运行方式:
- CLI 模式(推荐):
bash run_cli.sh,支持--window-hours、--sources等参数 - API 模式:
bash run_api.sh启动服务,提供/api/run、/api/papers、/api/status等端点
核心配置:
- 支持 OpenAI 及任意 LiteLLM 兼容的 LLM 服务
- 通过
topics.json定义研究主题与关键词,实现智能分类 - 可启用 PDF 首页文本提取(
ENABLE_PDF_TEXT=1)增强摘要质量 - 支持机构加权排名(
affiliations.json)
显著优点
1. 多源聚合:同时覆盖 arXiv(cs.CL, cs.AI, cs.LG 等)与 Hugging Face,减少信息孤岛
2. 智能过滤:基于 LLM 的相关性分类器,自动过滤低相关论文
3. 灵活部署:CLI 脚本即开即用,API 模式便于集成到现有工作流
4. 可定制主题:JSON 配置驱动,主题定义与 LLM 分类器解耦,便于精细调优
5. 轻量级存储:SQLite 本地存储,无需外部数据库依赖
潜在局限
- LLM 依赖:核心功能(相关性判断、摘要生成)完全依赖外部 LLM,成本高且存在延迟
- 无内置调度:需配合 cron/systemd 等外部工具实现定时运行
- PDF 解析可选:
PyMuPDF为额外依赖,未安装时仅依赖摘要文本 - 单用户设计:SQLite 存储与本地 API,未针对多用户并发优化
- 主题维护成本:主题定义需人工维护,领域快速演进时可能失效
适合人群
- AI/ML 研究者需跟踪最新文献但时间有限
- 研究小组需统一论文监控入口
- 自动化工作流开发者需结构化论文 feed
- 对 arXiv/HF 内容有明确领域聚焦的技术团队
常规风险
- API 密钥泄露:
OPENAI_API_KEY或LITELLM_API_KEY需妥善保管,建议通过.env文件管理 - 成本控制:高频轮询 + LLM 调用可能产生显著费用,建议合理设置
WINDOW_HOURS和主题限制 - 数据时效性:依赖上游平台 RSS/API,存在抓取延迟或接口变更风险
- 分类偏差:LLM 主题分类可能存在误判,重要论文建议人工复核