agentic-paper-digest-skill - 智能追踪前沿论文的科研助手

使用说明

核心用法

Agentic Paper Digest 是一款面向科研人员的自动化论文追踪与摘要工具。其核心工作流程分为三个层次：首先通过 CLI 或 API 模式运行，从 arXiv 和 Hugging Face 两大学术平台抓取指定时间窗口内的最新论文；随后利用配置的大语言模型（OpenAI 或 LiteLLM 兼容接口）进行相关性评分与智能摘要生成；最终将结果以 JSON 格式输出或存入本地 SQLite 数据库，支持下游 Agent 调用或人工审阅。

用户可通过 config/topics.json 自定义关注的研究主题，每个主题配置独立的关键词与结果上限；通过环境变量调整时间窗口、API 端点、模型参数等。工具提供两种运行模式：CLI 模式适合一次性批量获取与脚本集成，API 模式（FastAPI 服务）则支持持续轮询与 Web UI 交互。

显著优点

1. 双源聚合：同时覆盖 arXiv 预印本与 Hugging Face 模型/论文，兼顾理论研究与工程实践动态。
2. 智能过滤：基于 LLM 的相关性分类器替代传统关键词匹配，能识别语义相关但表述不同的研究。
3. 高度可配置：从主题定义、模型选择到抓取参数均可通过 JSON 配置与环境变量精细调整，无需修改代码。
4. 本地优先：数据存储于本地 SQLite，API 密钥通过 .env 管理，避免敏感信息上云。
5. 扩展友好：JSON 输出格式与 REST API 设计便于接入个人知识库、Notion、Slack 等下游工作流。

潜在缺点与局限性

1. 依赖外部 LLM：核心功能完全依赖 OpenAI 或兼容 API，产生持续调用成本，且摘要质量受模型能力制约。
2. 无内置去重机制：同一论文若在 arXiv 与 HF 同时出现，可能产生重复条目。
3. PDF 文本提取为可选功能：需额外安装 PyMuPDF，且仅提取首页，深度内容仍需人工阅读。
4. 个人维护项目：代码由单一开发者维护，长期更新与社区支持存在不确定性。
5. 无内置通知机制：需用户自行轮询 API 或结合 cron 等外部工具实现定时推送。

适合的目标群体

高校科研人员：需跨领域追踪最新进展但时间有限的研究生、博士后、青年教师。
工业界研究岗：关注大模型、AI 安全等快速演进领域的技术落地团队。
技术内容运营：科技媒体、 newsletter 作者，需批量筛选选题素材。
个人知识管理爱好者：希望将论文阅读流程自动化、结构化归档的极客用户。

使用风险

依赖项风险：bootstrap.sh 自动执行 pip install，若 requirements.txt 被篡改可能引入恶意包；建议首次使用前人工审查依赖列表。
API 成本失控：大窗口或高频轮询可能导致 LLM 调用费用激增，需合理设置 WINDOW_HOURS 与 MAX_CANDIDATES_PER_SOURCE。
网络稳定性：arXiv API 存在速率限制，批量抓取时可能触发 503 错误，需配合重试机制与合理超时配置。
数据持久化：默认数据目录位于用户主目录，若未备份可能因误删脚本或重装系统丢失历史记录。
模型幻觉：LLM 生成的摘要可能存在事实偏差，关键论文仍需人工核对原文。

education-research content-media api automation data-analytics productivity

agentic-paper-digest-skill 内容

scripts文件夹

手动下载zip · 5.7 kB

bootstrap.shtext/x-shellscript

请选择文件