使用说明

核心用法

Paper Recommendation Skill 是一套完整的AI研究论文自动化工作流工具，专为学术研究者设计。其核心流程包括：首先通过 fetch_papers.py 从arXiv API按分类（cs.AI/cs.LG/cs.MA）和关键词抓取最新论文并下载PDF；随后 review_papers.py 生成子代理任务，利用 sessions_spawn 并行启动多个子代理对论文进行深度阅读；子代理从arXiv HTML页面提取机构、完整摘要、核心贡献、实验结论等关键信息并评分；最终由主代理综合评审结果，按标准格式生成包含统计概览的详细简报，支持Telegram自动推送。整个流程可通过Cron配置实现每日10:00自动执行。

显著优点

效率提升显著：并行子代理架构将传统串行文献阅读时间从数小时压缩至分钟级，特别适合需要快速跟进领域进展的研究者。输出质量标准化：强制遵循的简报格式确保每篇论文包含机构、中文摘要、核心贡献、实验结果等完整字段，避免信息遗漏。自动化程度高：从论文发现到推送的全链路无人值守，支持具身智能等特定领域的持续追踪。技术栈轻量：仅依赖curl、pdftotext等系统工具，无需复杂ML模型或外部API密钥。可扩展性强：关键词、分类、子代理模型均可通过配置调整，适应不同研究方向。

潜在缺点与局限性

依赖arXiv单一数据源：未覆盖ACL、NeurIPS等会议论文，可能遗漏最新研究成果。PDF解析能力有限：基于pdftotext的文本提取对复杂排版、公式、图表支持不佳，影响部分论文的阅读质量。子代理成本不可控：并行评审大量论文时，LLM调用费用可能显著增加。硬编码配置问题：Telegram ID等参数写死在代码中，多用户场景下灵活性不足。评审质量波动：子代理评分依赖模型能力，对跨学科论文可能存在偏见。无持久化存储：论文元数据和历史评审结果未设计数据库管理，难以进行长期趋势分析。

适合的目标群体

AI/ML领域研究生与博士生：需要系统性跟进arXiv预印本，快速筛选与课题相关的论文。工业界算法工程师：关注具身智能、多智能体等特定技术方向的最新实践进展。小型研究团队负责人：希望建立团队内部论文分享机制，降低成员文献调研负担。独立研究者：缺乏机构订阅数据库访问，依赖开放获取资源的个人学者。

使用风险

网络依赖风险：arXiv API访问不稳定或变更可能导致抓取失败，需关注官方接口更新。存储空间膨胀：每日自动下载PDF将快速消耗磁盘空间，需定期清理或配置保留策略。Telegram隐私考量：简报自动发送至固定ID，若服务器被入侵可能导致研究兴趣泄露。子代理超时累积：单篇论文阅读超时设置为120秒，批量任务可能因队列堆积影响整体时效性。格式合规压力：严格的简报格式要求对子代理提示工程提出较高要求，版本迭代时需验证输出稳定性。

安全解读

Paper Recommendation Skill 深度评估

核心用法

该 Skill 构建了一套完整的学术论文研究工作流，包含三个核心脚本协同运作：

1. fetch_papers.py - 从 arXiv API 按分类（cs.AI/cs.LG/cs.MA）和关键词抓取最新论文，支持 PDF 下载
2. review_papers.py - 生成子代理任务配置，实现多论文并行评审
3. read_pdf.py - 提取 PDF 文本内容，支持全文本或分章节（摘要/方法/实验/结论）解析

Agent 工作流（7 步闭环）：获取论文 → 筛选决策 → 生成评审任务 → 子代理并行阅读 → 收集评分推荐 → 生成标准简报 → 推送 Telegram。特别设计了强制性的标准简报格式，包含 11 个必填字段（标题、作者、机构、arXiv 链接、中文摘要、核心贡献、主要结论、实验结果、Jarvis 评分笔记等），确保输出质量一致性。

自动化能力：内置 Cron 定时任务（每日 10:00），自动执行完整工作流，默认聚焦具身智能主题（关键词涵盖 robotics、VLA、sim2real、sensorimotor 等）。

显著优点

架构清晰：功能边界明确，纯 Python 标准库实现，零第三方依赖，规避供应链风险
效率优化：子代理并行评审替代串行阅读，大幅缩短多论文处理时间
输出标准化：强制模板确保简报质量一致性，降低人工整理成本
自动化集成：Cron + Telegram 推送实现"无人值守"式前沿追踪
来源可信：仅访问 arXiv（HTTPS 加密）和本地网关，数据公开透明

潜在局限

来源可信度：T3 级别（个人开发者/社区项目），虽代码公开可审计，但长期维护存在不确定性
外部依赖：依赖系统级工具（curl、pdftotext），跨平台兼容性受限（Windows 需额外配置）
评审深度受限：子代理基于 arXiv HTML/PDF 阅读，无法替代人类专家对方法细节、代码实现的深度验证
领域聚焦偏差：默认关键词偏向具身智能/机器人，其他 AI 子领域需手动调整配置
arXiv 单一源：未覆盖 ACL、NeurIPS 官网、OpenReview 等其他重要论文源

适合人群

| 用户类型 | 使用场景 |

|---------|---------|

| AI 研究者 | 每日快速扫读最新进展，筛选高价值论文深入阅读 |

| 实验室团队 | 组会前自动生成论文简报，统一分享格式 |

| 技术写作者 | 追踪特定领域（具身智能/多智能体）技术趋势 |

| 研究生 | 培养文献阅读习惯，学习论文结构分析框架 |

不适合：需要深度复现实验细节、验证代码正确性的严肃审稿工作；或追踪非 arXiv 源（如部分医学、生物信息学论文）的场景。

常规风险

中等风险：subprocess 调用 curl/pdftotext，虽 URL 来源可控（arXiv 域名），但理论上存在命令注入向量（当前实现无用户输入拼接）
低风险：本地文件系统操作（~/jarvis-research/papers/），路径固定无遍历风险
低风险：本地 Telegram 网关通信（127.0.0.1:18789），数据仅发送至用户配置账号
合规风险：处理公开学术数据，符合 GDPR 数据最小化原则，无敏感信息收集

建议缓解措施：将硬编码配置（TELEGRAM_ID、KEYWORDS）外部化至配置文件；细化异常处理（当前存在裸 except）；arXiv API 批量请求时添加延迟避免限流。

education-research automation content-media productivity api

paper-recommendation 内容

scripts文件夹

手动下载zip · 16.3 kB

daily_workflow.pytext/plain

请选择文件