tech-news-digest

📰 五源聚合·智能去重·多格式输出

五层数据源聚合的自动化科技新闻摘要系统,支持 RSS、Twitter KOL、GitHub Releases、Reddit 和网页搜索,具备质量评分与去重机制。

收藏
34.8k
安装
8.4k
版本
3.12.0
CLS 安全性认证2026-05-14
点击查看完整报告 >

使用说明

核心用法

Tech News Digest 是一款面向科技从业者与研究员的自动化新闻聚合工具,通过统一的五层数据模型(RSS、Twitter/X KOL、GitHub Releases、Reddit、网页搜索)采集前沿科技动态。用户可通过配置 JSON 文件自定义信源与主题,运行统一流水线脚本实现并行抓取、智能去重、质量评分,最终输出 Discord、邮件或 PDF 格式的摘要报告。

显著优点

1. 多源聚合与智能评分:138 个预配置信源覆盖 AI 实验室、开源社区、社交平台,内置 85% 标题相似度去重算法与多维度质量评分机制
2. 高可配置性:支持工作区级配置覆盖,用户可灵活启用/禁用信源、自定义主题搜索策略与展示样式

3. 鲁棒性设计:全脚本实现指数退避重试、API 限流自适应、多种认证降级策略(GitHub App Token 自动生成、多 API Key 轮询)

4. 零依赖执行:纯 Python 3.8+ 标准库实现,可选依赖增强体验但不强制安装

5. 多格式输出:内置 Discord、邮件、PDF 模板,支持中文排版(Noto Sans CJK SC)

潜在局限

  • Twitter/X 数据依赖付费第三方 API(twitterapi.io $3-5/月)或官方 API,免费层级受限
  • 网页搜索需配置 Brave/Tavily API Key,否则降级为搜索界面提示
  • GitHub 未认证时仅 60 req/hr,大规模监控需配置 Token
  • 跨平台分发需创建独立定时任务(OpenClaw 安全隔离机制)

适合人群

  • AI/LLM 研究员与开发者需追踪前沿模型发布与技术博客
  • 开源社区维护者关注依赖库 Release 动态
  • 科技媒体编辑或社区运营者需要自动化内容策展
  • 投资机构分析师监控加密与前沿科技赛道

常规风险

  • API 密钥泄露风险:需通过环境变量管理,避免硬编码
  • 信息茧房效应:自定义配置过度收敛可能导致视野局限,建议保留默认多元信源
  • 内容可信度参差:自动聚合内容需人工复核,尤其 Reddit/社交平台的非官方信源
  • 依赖服务可用性:RSS 源失效、API 政策变更可能影响数据采集完整性

安全解读

核心用法

Tech News Digest 是一个全自动化技术新闻聚合与分发系统,采用五层数据源架构:RSS订阅、Twitter/X KOL监控、GitHub发布追踪、Reddit社区和网页搜索。用户通过统一流水线脚本 run-pipeline.py 一键执行并行采集、质量评分、去重和格式化输出。

典型工作流程
1. 配置数据源(sources.json)和主题定义(topics.json

2. 设置 API 密钥环境变量(Twitter、Brave/Tavily、GitHub 等可选)

3. 执行 run-pipeline.py --hours 48 --freshness pd 生成聚合结果

4. 应用 Discord、邮件或 PDF 模板输出最终摘要

关键特性

  • 统一数据模型:所有来源归一化为标准格式,支持主题标签和优先级标记
  • 质量评分管道:基于来源权威性、时效性、内容完整性的多维评分
  • 智能去重:标题相似度 85% 阈值 + 历史归档惩罚
  • 多后端适配:Twitter 支持官方 API/twitterapi.io 自动切换;搜索支持 Brave/Tavily 自动选择

显著优点

  • 开箱即用:预配置 138 个优质来源(49 RSS、48 Twitter KOL、28 GitHub、13 Reddit、4 搜索主题),覆盖 AI/LLM、加密、前沿技术
  • 零依赖核心:纯 Python 3.8+ 标准库运行,可选依赖仅增强体验
  • 企业级健壮性:指数退避重试、并行限速、ETag 缓存、自动故障降级
  • 灵活覆盖机制:工作区配置可追加、禁用或替换默认源,不破坏升级兼容性
  • 安全设计:API 密钥仅环境变量读取,无硬编码;子进程调用受限且用途明确

潜在缺点与局限性

  • API 成本依赖:完整功能需配置 Twitter/X、搜索 API,免费额度有限(如 Twitter 官方 API $100/月起,twitterapi.io $3-5/月)
  • 中文支持有限:PDF 模板支持 Noto Sans CJK,但预配置源以英文为主
  • Reddit 无认证:使用公开 JSON API,受限于 Reddit 反爬策略,稳定性不如官方 API
  • 单会话隔离限制:OpenClaw 架构下单次执行只能投递到一个渠道(Discord 或邮件),多平台需多任务

适合人群

  • 技术团队负责人、CTO 需要定期掌握 AI/开源/加密领域动态
  • 开发者社区运营者,需向 Discord/Telegram 推送精选资讯
  • 个人技术布道者,希望自动化内容策展 workflow
  • 投资机构研究员追踪前沿技术信号

常规风险

  • API 密钥泄露风险:虽无硬编码,但环境变量管理不当仍可能泄露;建议定期轮换
  • 信息茧房效应:预配置源偏向西方技术圈,需主动补充中文/亚太来源
  • 依赖服务变更:Twitter API 政策、Reddit 公开 API 访问可能调整,需关注版本更新
  • 内容质量波动:自动化评分无法完全替代人工编辑判断,重要决策建议人工复核

tech-news-digest 内容

config文件夹
defaults文件夹
references文件夹
templates文件夹
scripts文件夹
tests文件夹
fixtures文件夹
手动下载zip · 112.7 kB
sources.jsonapplication/json
请选择文件