tech-news-digest

📰 五层数据源智能聚合,一键生成技术日报

自动化科技新闻聚合工具,整合RSS、Twitter、GitHub、Reddit和网页搜索五层数据源,内置质量评分与去重机制,支持Discord、邮件及PDF多格式输出。

收藏
29.2k
安装
8.4k
版本
3.11.0
CLS 安全性认证2026-05-12
点击查看完整报告 >

使用说明

核心功能

tech-news-digest 是一款面向技术从业者的自动化新闻聚合系统,通过五层数据收集架构实现全面的科技资讯覆盖:

  • RSS订阅源(49个):涵盖AI实验室官方博客、技术媒体、加密货币资讯
  • Twitter/X KOL监控(48位):AI研究者、加密货币领袖、科技高管动态
  • GitHub Releases追踪(28个仓库):LangChain、vLLM、DeepSeek等主流开源项目
  • Reddit社区(13个子版块):r/MachineLearning、r/LocalLLaMA等技术讨论
  • 网页搜索层:针对LLM、AI Agent、Crypto、Frontier Tech四大主题的自动搜索

显著优势

1. 统一数据模型与质量评分:所有来源转换为标准化格式,基于时效性、来源权威性、互动数据等多维度计算质量分数,自动去重(85%标题相似度阈值)

2. 智能并行流水线run-pipeline.py 统一编排五层采集,30秒内完成全量数据获取、合并与评分,支持失败重试与优雅降级

3. 灵活配置体系:工作区配置可覆盖默认源,支持启用/禁用特定源、自定义话题定义、调整搜索查询与展示规则

4. 多格式输出:内置Discord(移动优化)、邮件(富HTML)、PDF(A4排版,支持中文)三套模板,满足团队协作与个人阅读场景

5. 完善的运维支持:配置验证脚本、源健康监控(7天失败率追踪)、自动归档管理(90天清理)、详细日志输出

潜在局限

  • API依赖成本:Twitter数据需要twitterapi.io($3-5/月)或官方X API,网页搜索需要Tavily或Brave API key
  • 无实时推送机制:基于定时轮询(cron),非真正实时流式更新
  • 中文内容支持有限:PDF模板支持中文排版,但默认源以英文科技圈为主
  • 部署复杂度:需配置多组环境变量、管理workspace目录权限,对非技术用户门槛较高

适用人群

  • 技术团队负责人:需要定期向团队同步前沿动态
  • 独立开发者/研究者:希望高效追踪多源信息而不被信息流淹没
  • 投资机构分析师:监控技术趋势与开源生态演进
  • 科技内容创作者:寻找选题灵感与权威信源

常规风险提示

  • API配额管理:Twitter/GitHub/搜索API均有严格速率限制,过量采集可能导致临时封禁
  • 隐私合规:Reddit数据通过公开JSON API获取,但企业场景需注意员工监控合规性
  • 信息过载:默认配置包含138个源,建议根据实际需求裁剪,避免噪音干扰
  • 供应链安全:依赖feedparser、jsonschema等可选Python库,建议虚拟环境隔离

安全解读

核心用法

Tech News Digest 是一个专业的自动化科技新闻聚合系统,通过五层数据源(RSS 订阅、Twitter/X KOL、GitHub Releases、Reddit 讨论、Web 搜索)并行采集技术资讯,经质量评分与去重后生成结构化日报/周报。用户通过配置 sources.jsontopics.json 自定义信源与主题,运行统一管道脚本 run-pipeline.py 即可在约 30 秒内完成数据采集、合并、评分全流程,最终输出支持 Discord、邮件、PDF 等多种格式模板。

显著优点

1. 多源整合能力:预置 138 个高质量信源,覆盖 AI 实验室官方博客、一线研究员 Twitter、核心开源项目动态、垂直社区讨论及实时搜索,实现技术信息的全景覆盖。
2. 智能质量评分:基于标题相似度去重(85% 阈值)、历史存档惩罚、来源优先级等算法对文章打分排序,自动过滤低质与重复内容。

3. 高度可定制:工作区配置覆盖机制允许用户灵活启用/禁用默认源、添加私有 RSS/Twitter 账号、调整主题搜索词与展示数量,无需修改核心代码。

4. 工程健壮性:全流水线具备指数退避重试、ETag 缓存、并行 Worker 限制、速率自适应(如 Brave API 免费/付费计划自动检测)等生产级容错设计。

5. 零依赖运行:纯 Python 3.8+ 标准库实现,可选依赖仅 feedparser/jsonschema,无复杂部署负担。

潜在缺点与局限性

  • API 成本门槛:Twitter/X 数据需 twitterapi.io($3-5/月)或官方 API 认证,Web 搜索需 Tavily/Brave API 密钥,免费额度有限;无全部密钥时部分数据源降级或不可用。
  • 中文支持薄弱:PDF 模板虽支持 Noto Sans CJK SC,但默认信源以英文技术生态为主,中文科技媒体需手动配置 RSS 源补充。
  • 实时性限制:RSS 与 GitHub 依赖轮询机制,非真正实时推送;Reddit 与 Twitter 受 API 速率限制,高频采集易触发限流。
  • 跨平台隔离:OpenClaw 架构限制单次会话仅能投递至单一渠道(Discord 或邮件),多平台分发需配置多个定时任务。
  • 维护依赖:信源有效性(RSS 失效、Twitter API 策略变更)需持续监控,虽提供 source-health.py 工具,但仍需人工介入修复配置。

适合人群

  • 技术团队与开发者:需追踪开源项目 Release、AI 论文/产品动态、基础设施更新的工程师与架构师
  • 科技媒体与分析师:需要结构化信源进行趋势研究与选题策划的内容创作者
  • 投资者与产品经理:关注前沿技术商业化信号、竞品动态的 VC 与 PM
  • 自动化爱好者:希望自建信息工作流、替代付费资讯服务的效率工具用户

常规风险

1. API 密钥泄露风险:需将 TWITTERAPI_IO_KEY、BRAVE_API_KEYS 等写入环境变量,共享环境或日志配置不当可能导致密钥暴露
2. 信息茧房效应:自定义源若过度聚焦特定领域,算法评分可能强化同质化内容,需定期审视信源多样性

3. 依赖服务可用性:Twitter/X API 政策频繁变动、Reddit 公开 API 限制趋严,存在数据源突然中断的长期风险

4. 网络环境与合规:部分 RSS 源或 GitHub 资源在特定网络环境下访问受限;采集内容需遵守源站版权与 robots.txt 约定

tech-news-digest 内容

config文件夹
defaults文件夹
references文件夹
templates文件夹
scripts文件夹
tests文件夹
fixtures文件夹
手动下载zip · 110.6 kB
sources.jsonapplication/json
请选择文件