核心用法
Agentic Paper Digest 是一款面向AI/ML研究者的自动化论文追踪工具。它通过CLI或API方式,定期抓取arXiv和Hugging Face的最新论文,利用LLM进行相关性筛选与智能摘要,最终输出结构化的JSON结果或启动本地API服务供下游应用调用。
主要功能模块:
- 双源抓取:同时覆盖arXiv(cs.CL, cs.AI, cs.LG等类别)和Hugging Face论文流
- LLM智能过滤:基于用户定义的主题配置,自动判断论文相关性并分类
- 可配置摘要:支持为相关性判断和摘要生成分别指定不同强度的模型
- 灵活输出:CLI直接输出JSON,或启动FastAPI服务提供RESTful接口
- 数据持久化:SQLite存储抓取历史,支持去重与增量更新
显著优点
- 主题驱动的工作流:通过
topics.json精确定义研究兴趣,LLM分类器自动匹配 - 机构权重调节:可配置
affiliations.json对知名研究机构论文进行排序加权 - 成本可控:支持LiteLLM代理,可选用 cheaper 模型做初筛、更强模型做摘要
- 扩展性好:PDF首页文本提取(PyMuPDF)、自定义API端点、CORS跨域配置
潜在局限与风险
- LLM依赖性强:核心功能完全依赖外部API(OpenAI或兼容端点),无本地模型 fallback
- arXiv API限制:官方API有请求频率限制,大规模抓取需配合
ARXIV_PAGE_SIZE调优 - 配置复杂度:JSON配置文件需严格符合schema(无尾随逗号),手动编辑易出错
- 摘要质量波动:LLM生成的摘要可能存在幻觉,关键论文建议人工复核原文
适合人群
- 需要跟踪多领域最新进展的AI研究员、博士生
- 构建个人/团队论文推荐系统的开发者
- 希望自动化文献综述流程的技术写作团队
常规风险提醒
- API密钥泄露风险:
.env文件需妥善保管,避免提交至版本控制 - 成本累积风险:高频自动运行可能产生意外LLM调用费用,建议设置
WINDOW_HOURS下限 - 数据新鲜度:依赖arXiv发布节奏,非实时预印本平台可能存在数小时延迟