ai-research-scraper

🔬 AI前沿资讯智能聚合助手

🥥43总安装量 16评分人数 17
100% 的用户推荐

聚合TechCrunch等权威AI媒体,自动抓取最新产品动态与研究进展,为从业者提供精准行业情报。

B

存在边界风险,建议在隔离环境中验证

  • 来自社区或个人来源,建议先隔离验证
  • ✅ 无严重安全风险:未发现eval/exec执行不可信代码、SQL注入或系统破坏性命令(rm -rf等)
  • ⚠️ 命令注入风险:使用`subprocess.run()`调用外部node脚本,且命令参数包含潜在用户可控内容
  • ⚠️ 外部依赖风险:硬编码依赖tavily-search skill路径,无版本锁定机制,路径变更将导致执行失败
  • ❌ 代码完整性缺陷:simple_scraper.py第7行导入不存在的translate_text函数,将导致ImportError
  • ⚠️ 输入验证缺失:缺乏对命令行参数和外部输入的严格验证,存在潜在注入攻击面

使用说明

AI Research Scraper 是一款专注于人工智能领域信息聚合的自动化工具,旨在帮助用户快速获取来自TechCrunch、VentureBeat、MIT Technology Review、Google AI Blog等权威媒体的最新研究动态与产品发展资讯。该技能通过Python脚本执行网络抓取任务,支持自定义目标网站列表、控制摘要长度(token限制)、指定时间范围及主题筛选,并内置1小时缓存机制避免重复抓取,同时集成tavily-search作为备用搜索方案以应对网络超时问题。

核心用法方面,用户可通过命令行直接运行主脚本 scraper.py,支持 --max-tokens 控制摘要长度、--days 指定抓取时间范围、--topic 筛选特定主题。配置文件中可维护目标网站列表,格式为"网站名称|URL|RSS地址"。技能采用分层架构,主脚本负责调度,可调用外部Node.js脚本执行实际抓取任务,同时依赖tavily-search技能处理搜索请求。

显著优点包括:多源聚合能力覆盖主流AI媒体;智能缓存与超时重试机制提升稳定性;数据量控制确保快速阅读;保留原始链接便于深度阅读;模块化设计支持灵活配置。特别适合需要跟踪AI产品迭代、技术突破的从业者进行日常信息扫视。

潜在缺点与局限性不容忽视:代码结构存在明显缺陷,如simple_scraper.py中尝试导入不存在的translate_text函数;硬编码外部skill路径(tavily-search)导致强耦合;作为T3来源(个人开发者)的技能,代码审查严格度需提高;移除翻译功能后国际化支持缺失;缺乏完善的输入验证机制,若开放参数输入易受注入攻击。

适合目标群体主要为:AI研究员与学术工作者追踪前沿论文动态;产品经理监控竞品AI功能迭代;技术分析师收集行业趋势数据;开发者构建AI新闻聚合工作流。对于需要高频、自动化获取结构化AI资讯的用户价值显著。

使用风险包括:subprocess调用外部脚本存在命令注入潜在风险,尽管当前查询参数为硬编码;依赖tavily-search等外部服务,若路径变更或API调整将导致功能失效;网络请求可能暴露用户IP至第三方服务(Tavily API);代码边界不完整(如字符串切片未验证索引)可能引发运行时异常;T3来源意味着维护不确定性和安全更新延迟风险。建议仅在隔离环境(容器/虚拟机)中使用,避免处理敏感信息场景。

ai-research-scraper 内容

文件夹图标references文件夹
文件夹图标scripts文件夹
手动下载zip · 13.7 kB
api_reference.mdtext/markdown
请选择文件