tech-news-digest

📰 五源聚合·智能评分·多格式自动投递

data-automation榜 #1

专业级科技新闻聚合系统,五层数据源统一模型+质量评分+多格式输出,支持Discord、邮件和PDF分发

收藏
31.4k
安装
8.4k
版本
3.10.3
CLS 安全性认证2026-05-17
点击查看完整报告 >

使用说明

核心用法

Tech News Digest 是一套面向技术从业者和投资者的自动化新闻聚合系统,通过五层数据源(RSS订阅、Twitter/X KOL、GitHub发布、Reddit讨论、Brave Web搜索)构建统一数据模型,经质量评分和去重后生成结构化摘要。

主要工作流程
1. 数据收集层:并行执行5类抓取脚本(RSS/48源、Twitter KOL/48人、GitHub/28仓库、Reddit/13社区、Web搜索/4主题),支持指数退避重试和ETag缓存

2. 质量处理层merge-sources.py 执行标题相似度去重(85%阈值)、历史摘要惩罚、多维度评分排序

3. 输出生成层:支持Discord消息、HTML邮件(XSS安全过滤)、A4 PDF(含中文排版)三种格式

推荐用法:通过 run-pipeline.py 统一管道一键执行(约30秒完成),或配合 digest-prompt.md 模板实现定时任务自动化。

显著优点

  • 数据源权威:预配置138个高质量源,涵盖OpenAI、Anthropic官方博客,Andrej Karpathy、Sam Altman等KOL,LangChain、vLLM等核心开源项目
  • 架构工程化:完整的管道设计(并行抓取→合并评分→模板渲染)、JSON Schema配置校验、7天源健康度监控
  • 灵活可扩展:workspace配置覆盖机制,支持新增源/禁用默认源/自定义主题搜索词,无需修改核心代码
  • 多后端兼容:Twitter支持twitterapi.io(推荐,$3-5/月)和官方API双后端自动切换;GitHub支持PAT、App自动签发、gh CLI三档认证
  • 安全设计:禁止用户输入插值到shell命令,URL白名单限制http(s),邮件主题使用硬编码格式字符串

潜在缺点与局限

  • API依赖成本:完整功能需付费API(Twitter、Brave Search),免费 tier 有严格速率限制
  • 英文内容为主:预配置源以英文技术社区为核心,中文源仅覆盖少数媒体(如机器之心)
  • 部署复杂度:需要Python 3.8+环境、多个可选依赖(weasyprint用于PDF)、环境变量配置管理
  • 评分算法黑盒:质量评分逻辑封装在merge脚本中,用户无法自定义权重或接入LLM重排序
  • OpenClaw限制:单次会话只能投递到一个平台(Discord/Telegram隔离),多平台需配置多个cron任务

适合人群

  • 技术投资者/分析师:需追踪AI、Crypto、前沿科技多领域动态,依赖结构化摘要做决策
  • 开发者社区运营:维护Discord/Slack技术频道,需要自动化内容供给
  • 个人知识管理:希望替代Feedly/Twitter Lists,自建可控的信息流归档系统
  • 研究团队:需要多源聚合+历史去重+PDF存档的合规信息收集流程

常规风险

  • 源失效风险:RSS feed变更、Twitter API政策调整、Reddit限流可能导致数据缺口,需关注source-health.py报告
  • 隐私泄露风险: Brave Search查询、Twitter监控行为会暴露关注兴趣,敏感领域建议使用自托管替代方案
  • 内容误判风险:自动评分可能过滤高价值长尾内容,建议定期人工抽查 summarize-merged.py 输出
  • 凭证管理风险:GitHub App私钥文件路径需严格权限控制,避免GH_APP_KEY_FILE指向共享目录

安全解读

核心用法

Tech News Digest 是一个面向技术从业者的自动化新闻聚合系统,通过五层数据采集架构实现全面覆盖:RSS订阅源、Twitter/X行业意见领袖、GitHub版本发布、Reddit技术社区、以及Web搜索引擎。用户通过统一管道脚本 run-pipeline.py 一键运行所有采集器,系统自动并行拉取、质量评分、去重排序,最终输出结构化JSON供多格式模板渲染。

典型工作流:配置环境变量(可选API密钥)→ 运行管道脚本(约30秒)→ 选择输出模板(Discord/邮件/PDF)→ 自动推送。系统支持138个预配置源,涵盖AI实验室、开源项目、加密货币等垂直领域,并允许通过workspace配置覆盖实现个性化定制。

显著优点

架构设计优秀:管道模式将复杂流程拆解为可独立运行的模块化脚本,并行执行提升效率;统一的source/topic配置模型实现"一次定义,多处复用"。可靠性机制完善:指数退避重试、ETag缓存、超时控制、失败源健康监控,确保在部分API受限时仍能输出可用结果。输出生态丰富:Discord移动优化格式、专业邮件模板带HTML/PDF附件、支持中文排版的A4 PDF,满足不同场景需求。安全设计审慎:所有子进程调用均为硬编码安全用途(JWT签名、CLI工具),无用户输入注入风险;API密钥强制环境变量读取。

潜在局限

API依赖成本:Twitter/X数据需第三方服务(twitterapi.io约$3-5/月)或官方API,免费层限制较严;Brave搜索需付费计划才能并行查询。部署复杂度:虽核心功能纯标准库运行,但完整体验需配置Python虚拟环境、可选依赖、邮件发送工具(msmtp/gog)、PDF生成(weasyprint)。内容控制有限:依赖源质量,虽有人工筛选的默认源列表,但无法自动识别低质量或误导性内容,需用户自行判断。中文支持局限:PDF模板内置Noto Sans CJK SC字体,但RSS源以英文为主,中文科技媒体覆盖不足。

适合人群

  • 技术团队负责人:需要定期向团队同步前沿动态的CTO、技术经理
  • 独立开发者/研究者:关注LLM、AI Agent、开源工具链的个体从业者
  • Web3/加密货币从业者:预配置包含大量Crypto KOL和Reddit社区的垂直覆盖
  • 自动化爱好者:希望将信息获取从"主动搜索"转为"被动推送"的效率优化者

常规风险

API密钥泄露风险:需在环境变量中配置多个服务商密钥,建议专用密钥、定期轮换、避免提交到版本控制。内容合规风险:自动聚合可能包含未经核实的新闻、观点甚至误导信息,商业场景建议人工复核后再转发。服务稳定性风险:Twitter/X API政策频繁变更,Reddit公共API可能限流,存在源失效导致覆盖缺口的可能。数据残留风险:临时文件写入/tmp和workspace/archive,多用户环境需确认目录权限隔离。

tech-news-digest 内容

config文件夹
defaults文件夹
references文件夹
templates文件夹
scripts文件夹
手动下载zip · 94.6 kB
sources.jsonapplication/json
请选择文件