核心用法
Agentic Paper Digest 是一款面向研究人员的智能论文聚合工具,支持从 arXiv 和 Hugging Face 自动获取最新论文,经 LLM 相关性分类与摘要生成后,输出结构化 JSON 数据。
主要功能:
- 双源抓取:支持 arXiv(按学科分类)和 Hugging Face(按更新时间)双渠道获取
- 智能筛选:通过可配置的
topics.json定义研究兴趣,LLM 自动判断论文相关性 - 摘要生成:对命中主题的论文生成高质量摘要,可选 PDF 首页文本增强
- API 服务:提供 RESTful API 支持轮询工作流,包括运行触发、状态查询、论文列表等端点
- 灵活配置:支持环境变量、
.env文件及 JSON 配置文件多层配置
使用流程:
1. 运行 bootstrap 脚本获取代码(支持 git 或 curl/wget 回退)
2. 配置 API 密钥(OpenAI 或兼容服务)和研究主题
3. CLI 模式直接运行,或启动 API 服务供其他代理调用
显著优点
- 高度可定制:主题、模型、温度、抓取窗口、学科分类均可细粒度调整
- 多模型策略:可为相关性判断和摘要生成分别指定不同模型(如轻量模型筛选用,强模型摘要)
- 机构加权:通过
affiliations.json对特定研究机构论文提升排名 - 数据持久化:SQLite 存储便于历史查询和增量更新
- 开源透明:GitHub 开源,可审计代码逻辑
潜在缺点与局限性
- 依赖外部 API:核心功能依赖 OpenAI 或兼容 LLM 服务,存在成本和可用性风险
- PDF 解析额外依赖:
ENABLE_PDF_TEXT功能需单独安装 PyMuPDF - arXiv 抓取限制:受 arXiv API 速率限制,大量抓取需分页处理
- 分类准确性瓶颈:LLM 主题分类质量直接影响结果,需反复调优 topic 定义
- 无内置去重机制:同一论文跨天可能出现重复,需下游处理
- 仅支持英文源:arXiv 和 HF 以英文为主,非英语论文覆盖不足
适合人群
- AI/ML 研究人员需要追踪领域最新进展
- 学术机构图书馆构建自动化文献监测
- 技术博主或 newsletter 作者需要内容素材
- 研发团队跟踪竞品技术动态
常规风险
- API 密钥泄露:
.env文件管理不当可能导致密钥暴露 - LLM 幻觉:摘要生成可能存在事实偏差,需人工核验关键信息
- 成本不可控:高频运行或大批量抓取可能产生意外 API 费用
- 数据合规:抓取 HF 内容需遵守其服务条款