ai-research-scraper - AI前沿资讯智能聚合助手

使用说明

AI Research Scraper 是一款专注于人工智能领域信息聚合的自动化工具，旨在帮助用户快速获取来自TechCrunch、VentureBeat、MIT Technology Review、Google AI Blog等权威媒体的最新研究动态与产品发展资讯。该技能通过Python脚本执行网络抓取任务，支持自定义目标网站列表、控制摘要长度（token限制）、指定时间范围及主题筛选，并内置1小时缓存机制避免重复抓取，同时集成tavily-search作为备用搜索方案以应对网络超时问题。

核心用法方面，用户可通过命令行直接运行主脚本 scraper.py，支持 --max-tokens 控制摘要长度、--days 指定抓取时间范围、--topic 筛选特定主题。配置文件中可维护目标网站列表，格式为"网站名称|URL|RSS地址"。技能采用分层架构，主脚本负责调度，可调用外部Node.js脚本执行实际抓取任务，同时依赖tavily-search技能处理搜索请求。

显著优点包括：多源聚合能力覆盖主流AI媒体；智能缓存与超时重试机制提升稳定性；数据量控制确保快速阅读；保留原始链接便于深度阅读；模块化设计支持灵活配置。特别适合需要跟踪AI产品迭代、技术突破的从业者进行日常信息扫视。

潜在缺点与局限性不容忽视：代码结构存在明显缺陷，如simple_scraper.py中尝试导入不存在的translate_text函数；硬编码外部skill路径（tavily-search）导致强耦合；作为T3来源（个人开发者）的技能，代码审查严格度需提高；移除翻译功能后国际化支持缺失；缺乏完善的输入验证机制，若开放参数输入易受注入攻击。

适合目标群体主要为：AI研究员与学术工作者追踪前沿论文动态；产品经理监控竞品AI功能迭代；技术分析师收集行业趋势数据；开发者构建AI新闻聚合工作流。对于需要高频、自动化获取结构化AI资讯的用户价值显著。

使用风险包括：subprocess调用外部脚本存在命令注入潜在风险，尽管当前查询参数为硬编码；依赖tavily-search等外部服务，若路径变更或API调整将导致功能失效；网络请求可能暴露用户IP至第三方服务（Tavily API）；代码边界不完整（如字符串切片未验证索引）可能引发运行时异常；T3来源意味着维护不确定性和安全更新延迟风险。建议仅在隔离环境（容器/虚拟机）中使用，避免处理敏感信息场景。

content-media automation data-analytics api education-research

ai-research-scraper 内容

references文件夹

scripts文件夹

手动下载zip · 13.7 kB

api_reference.mdtext/markdown

请选择文件