paper-recommendation

📚 AI论文自动发现与智能简报

基于arXiv的AI论文自动发现与深度阅读系统,通过子代理并行评审生成结构化简报,为研究者节省文献筛选时间。

收藏
1.2k
安装
491
版本
127.0.0
CLS 安全性认证2026-05-22
点击查看完整报告 >

使用说明

核心用法

Paper Recommendation Skill 是一套完整的AI研究论文自动化工作流工具,专为学术研究者设计。其核心流程包括:首先通过 fetch_papers.py 从arXiv API按分类(cs.AI/cs.LG/cs.MA)和关键词抓取最新论文并下载PDF;随后 review_papers.py 生成子代理任务,利用 sessions_spawn 并行启动多个子代理对论文进行深度阅读;子代理从arXiv HTML页面提取机构、完整摘要、核心贡献、实验结论等关键信息并评分;最终由主代理综合评审结果,按标准格式生成包含统计概览的详细简报,支持Telegram自动推送。整个流程可通过Cron配置实现每日10:00自动执行。

显著优点

效率提升显著:并行子代理架构将传统串行文献阅读时间从数小时压缩至分钟级,特别适合需要快速跟进领域进展的研究者。输出质量标准化:强制遵循的简报格式确保每篇论文包含机构、中文摘要、核心贡献、实验结果等完整字段,避免信息遗漏。自动化程度高:从论文发现到推送的全链路无人值守,支持具身智能等特定领域的持续追踪。技术栈轻量:仅依赖curl、pdftotext等系统工具,无需复杂ML模型或外部API密钥。可扩展性强:关键词、分类、子代理模型均可通过配置调整,适应不同研究方向。

潜在缺点与局限性

依赖arXiv单一数据源:未覆盖ACL、NeurIPS等会议论文,可能遗漏最新研究成果。PDF解析能力有限:基于pdftotext的文本提取对复杂排版、公式、图表支持不佳,影响部分论文的阅读质量。子代理成本不可控:并行评审大量论文时,LLM调用费用可能显著增加。硬编码配置问题:Telegram ID等参数写死在代码中,多用户场景下灵活性不足。评审质量波动:子代理评分依赖模型能力,对跨学科论文可能存在偏见。无持久化存储:论文元数据和历史评审结果未设计数据库管理,难以进行长期趋势分析。

适合的目标群体

AI/ML领域研究生与博士生:需要系统性跟进arXiv预印本,快速筛选与课题相关的论文。工业界算法工程师:关注具身智能、多智能体等特定技术方向的最新实践进展。小型研究团队负责人:希望建立团队内部论文分享机制,降低成员文献调研负担。独立研究者:缺乏机构订阅数据库访问,依赖开放获取资源的个人学者。

使用风险

网络依赖风险:arXiv API访问不稳定或变更可能导致抓取失败,需关注官方接口更新。存储空间膨胀:每日自动下载PDF将快速消耗磁盘空间,需定期清理或配置保留策略。Telegram隐私考量:简报自动发送至固定ID,若服务器被入侵可能导致研究兴趣泄露。子代理超时累积:单篇论文阅读超时设置为120秒,批量任务可能因队列堆积影响整体时效性。格式合规压力:严格的简报格式要求对子代理提示工程提出较高要求,版本迭代时需验证输出稳定性。

安全解读

Paper Recommendation Skill 深度评估

核心用法

该 Skill 构建了一套完整的学术论文研究工作流,包含三个核心脚本协同运作:

1. fetch_papers.py - 从 arXiv API 按分类(cs.AI/cs.LG/cs.MA)和关键词抓取最新论文,支持 PDF 下载
2. review_papers.py - 生成子代理任务配置,实现多论文并行评审

3. read_pdf.py - 提取 PDF 文本内容,支持全文本或分章节(摘要/方法/实验/结论)解析

Agent 工作流(7 步闭环):获取论文 → 筛选决策 → 生成评审任务 → 子代理并行阅读 → 收集评分推荐 → 生成标准简报 → 推送 Telegram。特别设计了强制性的标准简报格式,包含 11 个必填字段(标题、作者、机构、arXiv 链接、中文摘要、核心贡献、主要结论、实验结果、Jarvis 评分笔记等),确保输出质量一致性。

自动化能力:内置 Cron 定时任务(每日 10:00),自动执行完整工作流,默认聚焦具身智能主题(关键词涵盖 robotics、VLA、sim2real、sensorimotor 等)。

显著优点

  • 架构清晰:功能边界明确,纯 Python 标准库实现,零第三方依赖,规避供应链风险
  • 效率优化:子代理并行评审替代串行阅读,大幅缩短多论文处理时间
  • 输出标准化:强制模板确保简报质量一致性,降低人工整理成本
  • 自动化集成:Cron + Telegram 推送实现"无人值守"式前沿追踪
  • 来源可信:仅访问 arXiv(HTTPS 加密)和本地网关,数据公开透明

潜在局限

  • 来源可信度:T3 级别(个人开发者/社区项目),虽代码公开可审计,但长期维护存在不确定性
  • 外部依赖:依赖系统级工具(curl、pdftotext),跨平台兼容性受限(Windows 需额外配置)
  • 评审深度受限:子代理基于 arXiv HTML/PDF 阅读,无法替代人类专家对方法细节、代码实现的深度验证
  • 领域聚焦偏差:默认关键词偏向具身智能/机器人,其他 AI 子领域需手动调整配置
  • arXiv 单一源:未覆盖 ACL、NeurIPS 官网、OpenReview 等其他重要论文源

适合人群

| 用户类型 | 使用场景 |
|---------|---------|
| AI 研究者 | 每日快速扫读最新进展,筛选高价值论文深入阅读 |
| 实验室团队 | 组会前自动生成论文简报,统一分享格式 |
| 技术写作者 | 追踪特定领域(具身智能/多智能体)技术趋势 |
| 研究生 | 培养文献阅读习惯,学习论文结构分析框架 |

不适合:需要深度复现实验细节、验证代码正确性的严肃审稿工作;或追踪非 arXiv 源(如部分医学、生物信息学论文)的场景。

常规风险

  • 中等风险:subprocess 调用 curl/pdftotext,虽 URL 来源可控(arXiv 域名),但理论上存在命令注入向量(当前实现无用户输入拼接)
  • 低风险:本地文件系统操作(~/jarvis-research/papers/),路径固定无遍历风险
  • 低风险:本地 Telegram 网关通信(127.0.0.1:18789),数据仅发送至用户配置账号
  • 合规风险:处理公开学术数据,符合 GDPR 数据最小化原则,无敏感信息收集

建议缓解措施:将硬编码配置(TELEGRAM_ID、KEYWORDS)外部化至配置文件;细化异常处理(当前存在裸 except);arXiv API 批量请求时添加延迟避免限流。

paper-recommendation 内容

scripts文件夹
手动下载zip · 16.3 kB
daily_workflow.pytext/plain
请选择文件