核心用法
Agentic Paper Digest 是一款面向科研人员的自动化论文追踪与摘要工具。其核心工作流程分为三个层次:首先通过 CLI 或 API 模式运行,从 arXiv 和 Hugging Face 两大学术平台抓取指定时间窗口内的最新论文;随后利用配置的大语言模型(OpenAI 或 LiteLLM 兼容接口)进行相关性评分与智能摘要生成;最终将结果以 JSON 格式输出或存入本地 SQLite 数据库,支持下游 Agent 调用或人工审阅。
用户可通过 config/topics.json 自定义关注的研究主题,每个主题配置独立的关键词与结果上限;通过环境变量调整时间窗口、API 端点、模型参数等。工具提供两种运行模式:CLI 模式适合一次性批量获取与脚本集成,API 模式(FastAPI 服务)则支持持续轮询与 Web UI 交互。
显著优点
1. 双源聚合:同时覆盖 arXiv 预印本与 Hugging Face 模型/论文,兼顾理论研究与工程实践动态。
2. 智能过滤:基于 LLM 的相关性分类器替代传统关键词匹配,能识别语义相关但表述不同的研究。
3. 高度可配置:从主题定义、模型选择到抓取参数均可通过 JSON 配置与环境变量精细调整,无需修改代码。
4. 本地优先:数据存储于本地 SQLite,API 密钥通过 .env 管理,避免敏感信息上云。
5. 扩展友好:JSON 输出格式与 REST API 设计便于接入个人知识库、Notion、Slack 等下游工作流。
潜在缺点与局限性
1. 依赖外部 LLM:核心功能完全依赖 OpenAI 或兼容 API,产生持续调用成本,且摘要质量受模型能力制约。
2. 无内置去重机制:同一论文若在 arXiv 与 HF 同时出现,可能产生重复条目。
3. PDF 文本提取为可选功能:需额外安装 PyMuPDF,且仅提取首页,深度内容仍需人工阅读。
4. 个人维护项目:代码由单一开发者维护,长期更新与社区支持存在不确定性。
5. 无内置通知机制:需用户自行轮询 API 或结合 cron 等外部工具实现定时推送。
适合的目标群体
- 高校科研人员:需跨领域追踪最新进展但时间有限的研究生、博士后、青年教师。
- 工业界研究岗:关注大模型、AI 安全等快速演进领域的技术落地团队。
- 技术内容运营:科技媒体、 newsletter 作者,需批量筛选选题素材。
- 个人知识管理爱好者:希望将论文阅读流程自动化、结构化归档的极客用户。
使用风险
- 依赖项风险:
bootstrap.sh自动执行pip install,若requirements.txt被篡改可能引入恶意包;建议首次使用前人工审查依赖列表。 - API 成本失控:大窗口或高频轮询可能导致 LLM 调用费用激增,需合理设置
WINDOW_HOURS与MAX_CANDIDATES_PER_SOURCE。 - 网络稳定性:arXiv API 存在速率限制,批量抓取时可能触发 503 错误,需配合重试机制与合理超时配置。
- 数据持久化:默认数据目录位于用户主目录,若未备份可能因误删脚本或重装系统丢失历史记录。
- 模型幻觉:LLM 生成的摘要可能存在事实偏差,关键论文仍需人工核对原文。