使用说明

核心用法

Agentic Paper Digest 是一个全自动学术论文追踪与摘要系统，采用双LLM架构（相关性分类器+摘要生成器）处理arXiv和Hugging Face的每日论文流。

工作流程：
1. 抓取：按时间窗口（WINDOW_HOURS）和分类（ARXIV_CATEGORIES）拉取arXiv/HF论文元数据
2. 过滤：LLM分类器根据topics.json中的自定义主题进行相关性评分
3. 摘要：高相关论文送入摘要模型生成结构化总结
4. 输出：支持JSON流、SQLite存储、REST API三种消费模式

运行模式：

CLI一次性执行：run_cli.sh --window-hours 24 --sources arxiv,hf
API服务模式：run_api.sh 提供轮询端点（/api/run, /api/papers, /api/topics）

显著优点

主题可编程：通过JSON配置自定义研究兴趣，非硬编码关键词匹配
双模型策略：可独立配置轻量模型做快速过滤、强模型做深度摘要，优化成本
智能排序：结合相关性得分+机构加权（affiliations.json）+主题配额（max_per_topic）
PDF全文增强：可选启用PyMuPDF提取首页文本，弥补摘要信息不足
生态兼容：原生支持OpenAI及任意OpenAI-compatible端点（via LiteLLM）

潜在局限

依赖外部LLM：无本地模型支持，必须配置API密钥（成本敏感场景受限）
单节点架构：SQLite存储和本地API服务器，不适合多用户/高并发场景
英文内容为主：arXiv/HF数据源及LLM摘要均为英文，中文论文覆盖有限
主题设计门槛：主题互斥性假设较强，交叉领域论文可能分类困难
无持久化工作流：API模式需外部调度器触发，无内置定时任务

适合人群

需要每日追踪多领域前沿的研究人员/实验室（AI/ML/NLP/安全方向最优）
构建个人知识库的PhD学生或独立研究者
希望将论文流集成到自动化工作流的Agent开发者

常规风险

API费用失控：高ARXIV_MAX_RESULTS+长窗口+强模型组合可能产生意外成本
数据时效性：依赖arXiv发布节奏，非实时预印本平台
分类偏差：LLM分类器对新颖交叉主题可能存在系统性误判
隐私泄露：PDF文本提取可能意外包含作者联系方式等敏感信息

arxiv hugging-face paper-digest llm research-automation academic-tools knowledge-management open-source api-server

Agentic Paper Digest Skill 内容

暂无文件树

手动下载zip · 4.6 kB

contentapplication/octet-stream

请选择文件