核心用法
Agentic Paper Digest 是一个全自动学术论文追踪与摘要系统,采用双LLM架构(相关性分类器+摘要生成器)处理arXiv和Hugging Face的每日论文流。
工作流程:
1. 抓取:按时间窗口(WINDOW_HOURS)和分类(ARXIV_CATEGORIES)拉取arXiv/HF论文元数据
2. 过滤:LLM分类器根据topics.json中的自定义主题进行相关性评分
3. 摘要:高相关论文送入摘要模型生成结构化总结
4. 输出:支持JSON流、SQLite存储、REST API三种消费模式
运行模式:
- CLI一次性执行:
run_cli.sh --window-hours 24 --sources arxiv,hf - API服务模式:
run_api.sh提供轮询端点(/api/run,/api/papers,/api/topics)
显著优点
- 主题可编程:通过JSON配置自定义研究兴趣,非硬编码关键词匹配
- 双模型策略:可独立配置轻量模型做快速过滤、强模型做深度摘要,优化成本
- 智能排序:结合相关性得分+机构加权(
affiliations.json)+主题配额(max_per_topic) - PDF全文增强:可选启用
PyMuPDF提取首页文本,弥补摘要信息不足 - 生态兼容:原生支持OpenAI及任意OpenAI-compatible端点(via LiteLLM)
潜在局限
- 依赖外部LLM:无本地模型支持,必须配置API密钥(成本敏感场景受限)
- 单节点架构:SQLite存储和本地API服务器,不适合多用户/高并发场景
- 英文内容为主:arXiv/HF数据源及LLM摘要均为英文,中文论文覆盖有限
- 主题设计门槛:主题互斥性假设较强,交叉领域论文可能分类困难
- 无持久化工作流:API模式需外部调度器触发,无内置定时任务
适合人群
- 需要每日追踪多领域前沿的研究人员/实验室(AI/ML/NLP/安全方向最优)
- 构建个人知识库的PhD学生或独立研究者
- 希望将论文流集成到自动化工作流的Agent开发者
常规风险
- API费用失控:高
ARXIV_MAX_RESULTS+长窗口+强模型组合可能产生意外成本 - 数据时效性:依赖arXiv发布节奏,非实时预印本平台
- 分类偏差:LLM分类器对新颖交叉主题可能存在系统性误判
- 隐私泄露:PDF文本提取可能意外包含作者联系方式等敏感信息