使用说明

核心用法

Agentic Paper Digest 是一款面向学术研究者的自动化论文聚合与摘要工具，通过智能代理工作流从 arXiv 和 Hugging Face 两大平台抓取最新论文，经 LLM 分类筛选后生成结构化摘要输出。

主要使用场景：

批量获取指定时间窗口内的最新 AI/ML 相关论文
生成 JSON 格式论文 feed，供下游代理或工作流消费
部署本地 API 服务，支持轮询式论文监控

运行方式：

CLI 模式（推荐）：bash run_cli.sh，支持 --window-hours、--sources 等参数
API 模式：bash run_api.sh 启动服务，提供 /api/run、/api/papers、/api/status 等端点

核心配置：

支持 OpenAI 及任意 LiteLLM 兼容的 LLM 服务
通过 topics.json 定义研究主题与关键词，实现智能分类
可启用 PDF 首页文本提取（ENABLE_PDF_TEXT=1）增强摘要质量
支持机构加权排名（affiliations.json）

显著优点

1. 多源聚合：同时覆盖 arXiv（cs.CL, cs.AI, cs.LG 等）与 Hugging Face，减少信息孤岛
2. 智能过滤：基于 LLM 的相关性分类器，自动过滤低相关论文
3. 灵活部署：CLI 脚本即开即用，API 模式便于集成到现有工作流
4. 可定制主题：JSON 配置驱动，主题定义与 LLM 分类器解耦，便于精细调优
5. 轻量级存储：SQLite 本地存储，无需外部数据库依赖

潜在局限

LLM 依赖：核心功能（相关性判断、摘要生成）完全依赖外部 LLM，成本高且存在延迟
无内置调度：需配合 cron/systemd 等外部工具实现定时运行
PDF 解析可选：PyMuPDF 为额外依赖，未安装时仅依赖摘要文本
单用户设计：SQLite 存储与本地 API，未针对多用户并发优化
主题维护成本：主题定义需人工维护，领域快速演进时可能失效

适合人群

AI/ML 研究者需跟踪最新文献但时间有限
研究小组需统一论文监控入口
自动化工作流开发者需结构化论文 feed
对 arXiv/HF 内容有明确领域聚焦的技术团队

常规风险

API 密钥泄露：OPENAI_API_KEY 或 LITELLM_API_KEY 需妥善保管，建议通过 .env 文件管理
成本控制：高频轮询 + LLM 调用可能产生显著费用，建议合理设置 WINDOW_HOURS 和主题限制
数据时效性：依赖上游平台 RSS/API，存在抓取延迟或接口变更风险
分类偏差：LLM 主题分类可能存在误判，重要论文建议人工复核

arxiv hugging-face paper-digest literature-review litellm automation academic-research

Agentic Paper Digest Skill 内容

暂无文件树

手动下载zip · 4.6 kB

contentapplication/octet-stream

请选择文件