Name: AI论文智能追踪与摘要助手
Author: matanle51

使用说明

核心用法

Agentic Paper Digest 是一款面向AI/ML研究者的自动化论文追踪工具。它通过CLI或API方式，定期抓取arXiv和Hugging Face的最新论文，利用LLM进行相关性筛选与智能摘要，最终输出结构化的JSON结果或启动本地API服务供下游应用调用。

主要功能模块：

双源抓取：同时覆盖arXiv（cs.CL, cs.AI, cs.LG等类别）和Hugging Face论文流
LLM智能过滤：基于用户定义的主题配置，自动判断论文相关性并分类
可配置摘要：支持为相关性判断和摘要生成分别指定不同强度的模型
灵活输出：CLI直接输出JSON，或启动FastAPI服务提供RESTful接口
数据持久化：SQLite存储抓取历史，支持去重与增量更新

显著优点

主题驱动的工作流：通过topics.json精确定义研究兴趣，LLM分类器自动匹配
机构权重调节：可配置affiliations.json对知名研究机构论文进行排序加权
成本可控：支持LiteLLM代理，可选用 cheaper 模型做初筛、更强模型做摘要
扩展性好：PDF首页文本提取（PyMuPDF）、自定义API端点、CORS跨域配置

潜在局限与风险

LLM依赖性强：核心功能完全依赖外部API（OpenAI或兼容端点），无本地模型 fallback
arXiv API限制：官方API有请求频率限制，大规模抓取需配合ARXIV_PAGE_SIZE调优
配置复杂度：JSON配置文件需严格符合schema（无尾随逗号），手动编辑易出错
摘要质量波动：LLM生成的摘要可能存在幻觉，关键论文建议人工复核原文

适合人群

需要跟踪多领域最新进展的AI研究员、博士生
构建个人/团队论文推荐系统的开发者
希望自动化文献综述流程的技术写作团队

常规风险提醒

API密钥泄露风险：.env文件需妥善保管，避免提交至版本控制
成本累积风险：高频自动运行可能产生意外LLM调用费用，建议设置WINDOW_HOURS下限
数据新鲜度：依赖arXiv发布节奏，非实时预印本平台可能存在数小时延迟

安全解读

核心用法

Agentic Paper Digest 是一款自动化论文聚合与智能摘要工具，主要服务于需要追踪机器学习、自然语言处理等领域最新研究进展的技术人员。其核心工作流程分为三个阶段：首先从arXiv和Hugging Face平台抓取指定时间窗口内的论文元数据；随后通过LLM进行相关性评分，筛选与用户预定义主题匹配的论文；最后生成结构化摘要并输出JSON格式结果。

该工具提供两种运行模式：CLI模式适合一次性批量处理，输出包含run_id、seen、kept等统计指标的JSON报告；API模式则启动本地HTTP服务(默认127.0.0.1:8000)，支持轮询调度、实时查询和主题动态配置，便于集成到自动化工作流或前端界面。

配置体系较为灵活：用户可通过config/topics.json定义研究主题（需包含唯一ID、标签、描述、关键词及数量上限），通过config/settings.json调整抓取参数（如arxiv_max_results、fetch_timeout_s），并通过环境变量或.env文件管理LLM提供商接入（支持OpenAI直接调用或兼容LiteLLM的第三方服务）。高级功能包括PDF首页文本提取（需安装PyMuPDF）、机构加权排序（通过affiliations.json配置）以及CORS跨域设置（用于UI访问）。

显著优点

1. 智能主题分类：不同于简单的关键词匹配，该工具利用LLM进行语义级相关性判断，支持多主题并行筛选，且max_per_topic机制可有效平衡各主题曝光度。

2. 灵活的LLM后端：通过LiteLLM抽象层，用户可无缝切换OpenAI、Azure、本地vLLM等多种推理后端，并支持为相关性判断和摘要生成配置不同模型以优化成本-质量权衡。

3. 双模态架构：CLI模式适合CI/CD集成和定时任务，API模式则提供完整的RESTful接口（含状态监控、结果分页、动态配置更新），满足从个人研究到团队协的不同场景。

4. 可控的数据本地化：所有原始数据与处理结果存储于本地SQLite数据库（papers.sqlite3），相比纯云服务方案更有利于长期学术数据积累和合规审计。

潜在缺点与局限性

1. 动态代码加载风险：该Skill采用L1级动态代码加载机制——通过bootstrap.sh从GitHub仓库实时拉取Python代码并执行。虽然来源为官方域名且功能与声明一致，但缺乏完整性校验（无哈希/签名验证），存在供应链攻击理论风险。首次运行建议在隔离环境观察。

2. 来源可信度中等：维护者matanle51为GitHub个人账号（2026年2月创建，仅1 star/0 forks），无组织背书或历史社区声誉积累。虽未发现恶意模式，但长期维护稳定性存疑。

3. 外部依赖复杂：运行时需动态安装Python依赖（通过pip install读取上游requirements.txt），供应链攻击面较宽；且强制依赖LLM API密钥，无离线降级方案。

4. 进程管理粗糙：stop_api.sh使用pkill -f模糊匹配终止进程，可能误杀其他含相同字符串的进程，建议改用PID文件机制。

5. 许可证不明：Skill未明确声明开源许可证，存在潜在合规风险。

适合人群

AI/ML研究人员：需要每日追踪arXiv cs.CL/cs.AI/cs.LG等类别更新，且希望按自定义主题（如"多模态大模型"、"高效微调"）自动筛选的阅读者
技术情报团队：需要结构化论文数据(JSON/SQLite)输入内部知识库或推送系统的企业研发部门
学术自媒体运营者：希望通过API自动化获取素材、生成摘要内容的科技博主
具备基础运维能力的用户：能够配置Python环境、管理API密钥、理解shell脚本执行风险的技术人员

不建议使用：对供应链安全极度敏感的环境（如金融核心系统）、完全离线场景、无法审核外部代码来源的合规严格机构。

常规风险

| 风险类别 | 具体表现 | 缓释建议 |

|---------|---------|---------|

| 供应链安全 | bootstrap.sh下载的代码未经完整性校验 | 运行前手动审查`matanle51/agentic_paper_digest`仓库；考虑fork后自建可信源 |

| API密钥泄露 | OPENAI_API_KEY/LITELLM_API_KEY以明文存储于.env | 使用专用密钥（非主账号），配置消费限额，定期轮换 |

| 数据隐私 | 论文摘要需发送至第三方LLM API处理 | 评估摘要内容敏感度；考虑本地部署模型替代 |

| 误杀进程 | stop_api.sh可能终止非目标进程 | 手动确认端口8000占用情况，或使用PID文件精确管理 |

| 依赖漂移 | requirements.txt上游更新可能引入破坏性变更 | 锁定依赖版本，定期安全审计 |

总体而言，这是一款功能设计精良、贴合学术工作者痛点的工具，其动态代码加载+个人开发者来源的组合要求用户在便利性与安全性之间做出权衡。建议在非生产环境完成首次验证，并持续关注上游仓库更新动态。

arxiv paper-digest llm-summarization research-automation huggingface cli-tool api-server academic-research

Agentic Paper Digest Skill 内容

scripts文件夹

手动下载zip · 5.6 kB

bootstrap.shtext/x-shellscript

请选择文件