agentic-paper-digest-skill

📄 智能追踪前沿论文的科研助手

🥥7总安装量 3评分人数 2
100% 的用户推荐

基于开源项目的智能论文摘要工具,自动抓取arXiv/Hugging Face最新论文并通过LLM生成结构化摘要,助力科研人员高效追踪前沿研究动态。

B

存在边界风险,建议在隔离环境中验证

  • 来自可信组织或认证账号,需要结合权限范围判断
  • ✅ 代码遵循 Bash 安全最佳实践,使用 `set -euo pipefail` 与 `mktemp` 处理临时文件
  • ✅ 网络通信仅连接 GitHub 官方域名与公开学术 API,无异常外联行为
  • ✅ 未检出反弹 Shell、数据外泄、勒索软件或系统破坏等恶意代码特征
  • ⚠️ 执行 `pip install -r requirements.txt` 引入第三方依赖,建议人工审查后再运行
  • ⚠️ 从 GitHub 动态下载外部代码,虽使用 HTTPS 且仓库公开,仍需关注供应链安全

使用说明

核心用法

Agentic Paper Digest 是一款面向科研人员的自动化论文追踪与摘要工具。其核心工作流程分为三个层次:首先通过 CLI 或 API 模式运行,从 arXiv 和 Hugging Face 两大学术平台抓取指定时间窗口内的最新论文;随后利用配置的大语言模型(OpenAI 或 LiteLLM 兼容接口)进行相关性评分与智能摘要生成;最终将结果以 JSON 格式输出或存入本地 SQLite 数据库,支持下游 Agent 调用或人工审阅。

用户可通过 config/topics.json 自定义关注的研究主题,每个主题配置独立的关键词与结果上限;通过环境变量调整时间窗口、API 端点、模型参数等。工具提供两种运行模式:CLI 模式适合一次性批量获取与脚本集成,API 模式(FastAPI 服务)则支持持续轮询与 Web UI 交互。

显著优点

1. 双源聚合:同时覆盖 arXiv 预印本与 Hugging Face 模型/论文,兼顾理论研究与工程实践动态。
2. 智能过滤:基于 LLM 的相关性分类器替代传统关键词匹配,能识别语义相关但表述不同的研究。

3. 高度可配置:从主题定义、模型选择到抓取参数均可通过 JSON 配置与环境变量精细调整,无需修改代码。

4. 本地优先:数据存储于本地 SQLite,API 密钥通过 .env 管理,避免敏感信息上云。

5. 扩展友好:JSON 输出格式与 REST API 设计便于接入个人知识库、Notion、Slack 等下游工作流。

潜在缺点与局限性

1. 依赖外部 LLM:核心功能完全依赖 OpenAI 或兼容 API,产生持续调用成本,且摘要质量受模型能力制约。
2. 无内置去重机制:同一论文若在 arXiv 与 HF 同时出现,可能产生重复条目。

3. PDF 文本提取为可选功能:需额外安装 PyMuPDF,且仅提取首页,深度内容仍需人工阅读。

4. 个人维护项目:代码由单一开发者维护,长期更新与社区支持存在不确定性。

5. 无内置通知机制:需用户自行轮询 API 或结合 cron 等外部工具实现定时推送。

适合的目标群体

  • 高校科研人员:需跨领域追踪最新进展但时间有限的研究生、博士后、青年教师。
  • 工业界研究岗:关注大模型、AI 安全等快速演进领域的技术落地团队。
  • 技术内容运营:科技媒体、 newsletter 作者,需批量筛选选题素材。
  • 个人知识管理爱好者:希望将论文阅读流程自动化、结构化归档的极客用户。

使用风险

  • 依赖项风险bootstrap.sh 自动执行 pip install,若 requirements.txt 被篡改可能引入恶意包;建议首次使用前人工审查依赖列表。
  • API 成本失控:大窗口或高频轮询可能导致 LLM 调用费用激增,需合理设置 WINDOW_HOURSMAX_CANDIDATES_PER_SOURCE
  • 网络稳定性:arXiv API 存在速率限制,批量抓取时可能触发 503 错误,需配合重试机制与合理超时配置。
  • 数据持久化:默认数据目录位于用户主目录,若未备份可能因误删脚本或重装系统丢失历史记录。
  • 模型幻觉:LLM 生成的摘要可能存在事实偏差,关键论文仍需人工核对原文。

agentic-paper-digest-skill 内容

文件夹图标scripts文件夹
手动下载zip · 5.7 kB
bootstrap.shtext/x-shellscript
请选择文件