news-aggregator-skill

📡 8源聚合的智能资讯雷达

编辑精选

聚合8大主流信息源的实时新闻抓取工具,支持深度内容分析与智能关键词扩展,为技术从业者提供一站式资讯监控与解读服务。

收藏
10.4k
安装
3.5k
版本
v0.1.0
CLS 安全性认证2026-05-05
点击查看完整报告 >

使用说明

核心用法

News Aggregator Skill 是一款多源新闻聚合工具,支持从 Hacker News、GitHub Trending、Product Hunt、36Kr、腾讯新闻、华尔街见闻、V2EX 和微博 8 个主流平台实时抓取热点内容。用户可通过 --source 指定单一或全部数据源,,--limit 控制返回数量,,--keyword 进行关键词过滤,并启用 --deep 模式获取文章正文进行深度分析。

该 Skill 提供两种核心策略:一是"Global Scan"全局扫描模式,通过大批量获取(约120条)后由 Agent 进行语义过滤;二是"Smart Keyword Expansion"智能关键词扩展,自动将用户简单关键词(如"AI")扩展为完整领域词库("AI,LLM,GPT,Claude,Generative,Machine Learning,RAG,Agent"),确保检索覆盖度。对于 GitHub Trending 等列表型源,强制返回全部条目并进行 AI 深度解读,包括核心价值、启发思考和场景标签三个维度。

显著优点

多源覆盖与实时性:整合全球技术、创业、金融、社交四大类信息源,兼顾国际视野(Hacker News、Product Hunt)与本土洞察(36Kr、微博、V2EX),满足多元化信息需求。

智能处理机制:关键词自动扩展解决用户检索词不全面的痛点;时间窗口智能填充确保报告信息量(当指定时段结果不足5条时,自动补充高价值历史内容并标注);深度内容获取支持文章正文解析,超越标题级信息。

专业输出格式:采用杂志/Newsletter 风格(类似 The Economist 或 Morning Brew),输出包含全球头条、科技 AI、金融社交等结构化板块,每条新闻配备 Markdown 链接标题、元数据时间线、一句话摘要和深度解读要点,并自动保存带时间戳的报告文件。

潜在缺点与局限性

数据源依赖风险:所有信息均来自第三方公开 API 或页面,若目标网站调整接口、增加反爬策略或 RSS 失效,将导致功能中断。GitHub Trending 等页面依赖 HTML 解析,结构变更会直接破坏抓取逻辑。

内容深度受限--deep 模式虽能获取正文,但受限于目标网站的反爬机制、登录墙或 JavaScript 渲染内容,部分文章可能无法完整提取。此外,AI 分析质量依赖于底层模型能力,对高度专业化内容的解读可能存在偏差。

时效性与准确性权衡:智能时间填充机制虽保证了报告丰富度,但可能混入用户明确排除时段的内容,需用户自行判断相关性。关键词扩展虽提升召回率,也可能引入噪声。

语言与地域局限:输出强制为简体中文,对非中文用户不友好;信息源以中美为主,对欧洲、东南亚等其他地区覆盖不足。

适合的目标群体

  • 技术从业者与开发者:追踪 GitHub 趋势、Hacker News 技术动态,获取开源项目灵感
  • 产品经理与创业者:监控 Product Hunt 新品、36Kr 创业资讯,把握市场脉搏
  • 金融投资者:通过华尔街见闻、腾讯新闻获取实时财经热点与深度解读
  • 信息策展人与内容运营:批量获取多平台热点,生成每日资讯简报或 Newsletter
  • 研究人员与分析师:进行技术趋势扫描、竞品监控、舆情分析等场景

使用风险

网络与性能风险:并发请求 8 个数据源可能触发部分网站的速率限制,虽内置线程池控制(最大10并发)和超时机制,但在网络不稳定环境下仍可能出现请求失败或响应延迟。--deep 模式因需下载并解析文章正文,耗时显著增加,大批量操作可能影响用户体验。

依赖项维护风险:依赖 requestsbeautifulsoup4 两个核心库,虽均为成熟项目,但版本未固定(INFO-001)可能导致未来兼容性问题。建议用户在实际部署时锁定具体版本。

合规与版权风险:抓取公开数据本身合法,但深度获取文章正文可能触及部分网站的服务条款。用户需自行评估目标网站的 robots.txt 政策及使用条款,避免用于商业性大规模爬取。输出报告中的内容摘要和解读应注明来源,尊重原创版权。

错误处理局限:代码中存在裸 except 捕获(INFO-002),可能掩盖具体异常信息,增加调试难度。建议用户关注运行日志,遇到持续失败时检查网络连接和目标网站可访问性。

安全解读

核心用法

News Aggregator 是一款面向信息焦虑时代的高效资讯工具,整合 Hacker News、GitHub Trending、Product Hunt、36Kr、腾讯新闻、华尔街见闻、V2EX、微博热搜 8 大信源,覆盖科技、金融、社交、创投全领域。

典型场景:

  • Global Scan(全局扫描)--source all --limit 15 --deep 一键拉取约120条内容,AI 语义过滤后输出精要
  • 精准关键词追踪:支持智能关键词扩展(如用户输入"AI"自动扩展至 AI,LLM,GPT,Claude,Generative,Machine Learning,RAG,Agent
  • 深度模式(--deep):下载并提取文章正文,支持长文精读与摘要生成
  • 时间窗口智能填充:当特定时段结果稀疏时,自动补充高热度历史内容并标注时效

显著优点
1. 信源权威性高:Hacker News(硅谷风向标)、GitHub Trending(技术前沿)、华尔街见闻(金融专业)、36Kr(本土创投)形成互补矩阵

2. 技术实现规范:使用标准库 requests + beautifulsoup4,代码结构清晰,无危险函数

3. 输出品质专业:强制要求 Markdown 链接格式、热度元数据、核心价值/启发思考/场景标签三维解读,可直接用于 Newsletter 或研报

4. 并发效率高:ThreadPoolExecutor 多线程抓取,适合实时简报场景

潜在缺点与局限

  • 外部依赖脆弱:8 个 API 均为第三方控制,无服务级别协议(SLA),接口变更或反爬升级可能导致功能中断
  • T3 级来源风险:维护者为个人开发者(cclank),无商业背书,长期维护不确定性较高
  • 输入验证薄弱:keyword 参数缺乏长度限制与 ReDoS 防护,存在潜在正则性能风险
  • 无官方 API 密钥:依赖公开端点,可能受速率限制,高频调用稳定性存疑

适合人群

  • 开发者/技术产品经理:追踪 GitHub 趋势与 HN 技术讨论
  • 早期投资人/分析师:监控 Product Hunt 新品与 36Kr 创投动态
  • 财经从业者:华尔街见闻与腾讯新闻的金融资讯整合
  • 信息策展人:需要快速生成结构化简报的内容运营者

常规风险

  • 服务中断风险:微博、腾讯等来源可能需要维护 Cookie/Referer,策略变更会导致抓取失败
  • 数据合规边界:抓取公开数据本身合法,但需遵守各平台 robots.txt 及使用条款
  • 隐私泄露极低:不收集用户敏感信息,纯只读 HTTP GET 请求,无数据外泄通道

news-aggregator-skill 内容

scripts文件夹
手动下载zip · 9.9 kB
fetch_news.pytext/plain
请选择文件