Agentic Paper Digest Skill

📄 AI 驱动的论文自动筛选摘要工具

科研工具榜 #3

基于 LLM 的智能论文筛选与摘要工具,自动抓取 arXiv/Hugging Face 最新研究并生成结构化 JSON 输出,适合科研人员追踪前沿动态。

收藏
12.9k
安装
3.3k
版本
0.3.1
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

Agentic Paper Digest 是一个面向科研人员的自动化论文聚合与摘要工具,支持从 arXiv 和 Hugging Face 两个主要学术平台抓取最新论文。用户可通过 CLI 直接运行一次性任务,或启动本地 API 服务实现定时轮询。CLI 模式支持灵活的时间窗口(--window-hours)和信源筛选(--sources arxiv,hf),输出包含运行 ID、处理数量、时间范围等元信息的 JSON 格式结果,便于下游代理消费。API 模式则提供 RESTful 端点,支持触发任务、查询状态和获取论文列表。

显著优点

1. 智能相关性过滤:内置 LLM 驱动的相关性分类器,可根据自定义主题(config/topics.json)自动判断论文匹配度,避免信息过载。
2. 双模式架构:CLI 适合一次性深度检索,API 服务适合持续监控,满足不同工作流需求。

3. 灵活配置:通过环境变量或 .env 文件管理 LLM 密钥(支持 OpenAI 及任意兼容代理),可独立配置摘要模型与相关性模型,实现成本与质量的平衡。

4. PDF 原文增强:可选启用 PyMuPDF 提取首页文本,弥补摘要信息不足的缺陷。

5. 机构加权排序:支持基于作者单位的关键词匹配加权,优先展示知名机构成果。

潜在缺点与局限性

  • 外部依赖较重:必须配置有效的 LLM API 密钥才能运行核心功能,无法离线使用。
  • Python 环境要求:需要 Python 3 及网络访问,对非技术用户有一定门槛。
  • 单节点 SQLite 存储:数据持久化依赖本地 SQLite,不适合多实例部署或高并发场景。
  • 主题定义敏感:相关性分类器对 topics.json 中的 ID 和描述格式要求严格,配置不当会导致过滤失效。
  • 无内置定时器:API 服务本身不提供调度功能,需配合外部 cron 或工作流引擎实现自动轮询。

适合人群

  • 需要追踪多领域最新进展的机器学习/AI 研究人员
  • 运营学术简报、新闻通讯的内容策展人
  • 希望自动化论文初筛流程的科研团队
  • 构建下游分析管道的开发者(JSON 输出便于集成)

常规风险

  • API 密钥泄露风险:需在环境变量或 .env 文件中存储 LLM 密钥,共享环境时应注意权限隔离。
  • 成本不可控:若未限制 ARXIV_MAX_RESULTSWINDOW_HOURS,高频运行可能对 LLM API 产生意外费用。
  • 结果质量波动:摘要质量直接依赖所选 LLM 模型,低成本模型可能产生不准确的技术解读。
  • 数据源变动:arXiv 或 Hugging Face 的 RSS/API 格式变更可能导致抓取失效。

Agentic Paper Digest Skill 内容

暂无文件树

手动下载zip · 4.6 kB
contentapplication/octet-stream
请选择文件