使用说明

核心用法

News Aggregator Skill 是一款多源新闻聚合工具，支持从 Hacker News、GitHub Trending、Product Hunt、36Kr、腾讯新闻、华尔街见闻、V2EX 和微博 8 个主流平台实时抓取热点内容。用户可通过 --source 指定单一或全部数据源，，--limit 控制返回数量，，--keyword 进行关键词过滤，并启用 --deep 模式获取文章正文进行深度分析。

该 Skill 提供两种核心策略：一是"Global Scan"全局扫描模式，通过大批量获取（约120条）后由 Agent 进行语义过滤；二是"Smart Keyword Expansion"智能关键词扩展，自动将用户简单关键词（如"AI"）扩展为完整领域词库（"AI,LLM,GPT,Claude,Generative,Machine Learning,RAG,Agent"），确保检索覆盖度。对于 GitHub Trending 等列表型源，强制返回全部条目并进行 AI 深度解读，包括核心价值、启发思考和场景标签三个维度。

显著优点

多源覆盖与实时性：整合全球技术、创业、金融、社交四大类信息源，兼顾国际视野（Hacker News、Product Hunt）与本土洞察（36Kr、微博、V2EX），满足多元化信息需求。

智能处理机制：关键词自动扩展解决用户检索词不全面的痛点；时间窗口智能填充确保报告信息量（当指定时段结果不足5条时，自动补充高价值历史内容并标注）；深度内容获取支持文章正文解析，超越标题级信息。

专业输出格式：采用杂志/Newsletter 风格（类似 The Economist 或 Morning Brew），输出包含全球头条、科技 AI、金融社交等结构化板块，每条新闻配备 Markdown 链接标题、元数据时间线、一句话摘要和深度解读要点，并自动保存带时间戳的报告文件。

潜在缺点与局限性

数据源依赖风险：所有信息均来自第三方公开 API 或页面，若目标网站调整接口、增加反爬策略或 RSS 失效，将导致功能中断。GitHub Trending 等页面依赖 HTML 解析，结构变更会直接破坏抓取逻辑。

内容深度受限：--deep 模式虽能获取正文，但受限于目标网站的反爬机制、登录墙或 JavaScript 渲染内容，部分文章可能无法完整提取。此外，AI 分析质量依赖于底层模型能力，对高度专业化内容的解读可能存在偏差。

时效性与准确性权衡：智能时间填充机制虽保证了报告丰富度，但可能混入用户明确排除时段的内容，需用户自行判断相关性。关键词扩展虽提升召回率，也可能引入噪声。

语言与地域局限：输出强制为简体中文，对非中文用户不友好；信息源以中美为主，对欧洲、东南亚等其他地区覆盖不足。

适合的目标群体

技术从业者与开发者：追踪 GitHub 趋势、Hacker News 技术动态，获取开源项目灵感
产品经理与创业者：监控 Product Hunt 新品、36Kr 创业资讯，把握市场脉搏
金融投资者：通过华尔街见闻、腾讯新闻获取实时财经热点与深度解读
信息策展人与内容运营：批量获取多平台热点，生成每日资讯简报或 Newsletter
研究人员与分析师：进行技术趋势扫描、竞品监控、舆情分析等场景

使用风险

网络与性能风险：并发请求 8 个数据源可能触发部分网站的速率限制，虽内置线程池控制（最大10并发）和超时机制，但在网络不稳定环境下仍可能出现请求失败或响应延迟。--deep 模式因需下载并解析文章正文，耗时显著增加，大批量操作可能影响用户体验。

依赖项维护风险：依赖 requests 和 beautifulsoup4 两个核心库，虽均为成熟项目，但版本未固定（INFO-001）可能导致未来兼容性问题。建议用户在实际部署时锁定具体版本。

合规与版权风险：抓取公开数据本身合法，但深度获取文章正文可能触及部分网站的服务条款。用户需自行评估目标网站的 robots.txt 政策及使用条款，避免用于商业性大规模爬取。输出报告中的内容摘要和解读应注明来源，尊重原创版权。

错误处理局限：代码中存在裸 except 捕获（INFO-002），可能掩盖具体异常信息，增加调试难度。建议用户关注运行日志，遇到持续失败时检查网络连接和目标网站可访问性。

安全解读

核心用法

News Aggregator 是一款面向信息焦虑时代的高效资讯工具，整合 Hacker News、GitHub Trending、Product Hunt、36Kr、腾讯新闻、华尔街见闻、V2EX、微博热搜 8 大信源，覆盖科技、金融、社交、创投全领域。

典型场景：

Global Scan（全局扫描）：--source all --limit 15 --deep 一键拉取约120条内容，AI 语义过滤后输出精要
精准关键词追踪：支持智能关键词扩展（如用户输入"AI"自动扩展至 AI,LLM,GPT,Claude,Generative,Machine Learning,RAG,Agent）
深度模式（--deep）：下载并提取文章正文，支持长文精读与摘要生成
时间窗口智能填充：当特定时段结果稀疏时，自动补充高热度历史内容并标注时效

显著优点
1. 信源权威性高：Hacker News（硅谷风向标）、GitHub Trending（技术前沿）、华尔街见闻（金融专业）、36Kr（本土创投）形成互补矩阵
2. 技术实现规范：使用标准库 requests + beautifulsoup4，代码结构清晰，无危险函数
3. 输出品质专业：强制要求 Markdown 链接格式、热度元数据、核心价值/启发思考/场景标签三维解读，可直接用于 Newsletter 或研报
4. 并发效率高：ThreadPoolExecutor 多线程抓取，适合实时简报场景

潜在缺点与局限

外部依赖脆弱：8 个 API 均为第三方控制，无服务级别协议（SLA），接口变更或反爬升级可能导致功能中断
T3 级来源风险：维护者为个人开发者（cclank），无商业背书，长期维护不确定性较高
输入验证薄弱：keyword 参数缺乏长度限制与 ReDoS 防护，存在潜在正则性能风险
无官方 API 密钥：依赖公开端点，可能受速率限制，高频调用稳定性存疑

适合人群

开发者/技术产品经理：追踪 GitHub 趋势与 HN 技术讨论
早期投资人/分析师：监控 Product Hunt 新品与 36Kr 创投动态
财经从业者：华尔街见闻与腾讯新闻的金融资讯整合
信息策展人：需要快速生成结构化简报的内容运营者

常规风险

服务中断风险：微博、腾讯等来源可能需要维护 Cookie/Referer，策略变更会导致抓取失败
数据合规边界：抓取公开数据本身合法，但需遵守各平台 robots.txt 及使用条款
隐私泄露极低：不收集用户敏感信息，纯只读 HTTP GET 请求，无数据外泄通道

content-media productivity data-analytics automation api

news-aggregator-skill 内容

scripts文件夹

手动下载zip · 9.9 kB

fetch_news.pytext/plain

请选择文件