tech-news-digest

📰 五源聚合 · 智能评分 · 一键投递

信息聚合与分发榜 #1

自动化科技新闻聚合系统,五层数据源采集、智能质量评分、多格式输出,支持 Discord/邮件/PDF 投递

收藏
26.4k
安装
8.4k
版本
3.10.2
CLS 安全性认证2026-05-17
点击查看完整报告 >

使用说明

核心用法

tech-news-digest 是一个企业级自动化科技资讯聚合系统,采用五层数据源架构:RSS 订阅源(49 个)、Twitter/X KOL 监控(48 位)、GitHub 发布追踪(28 个仓库)、Reddit 社区(13 个子版块)以及 Brave 搜索引擎(4 大主题)。用户通过统一的流水线脚本 run-pipeline.py 即可在 30 秒内并行采集、去重、评分并输出结构化数据,支持 Discord、邮件、PDF 等多种投递格式。

显著优点

1. 全自动化流水线:单一命令运行 5 个数据源并行采集,内置指数退避重试、ETag 缓存、速率限制处理
2. 智能质量评分:基于标题相似度去重(85% 阈值)、历史文摘惩罚机制、主题相关性加权

3. 零依赖安全设计:纯 Python 3.8+ 标准库运行,可选依赖仅增强体验;无 pip install 执行风险

4. 灵活配置覆盖:工作区配置可追加/禁用/覆盖默认的 138 个数据源,无需修改核心代码

5. 多后端兼容:Twitter API 支持官方 v2 和 twitterapi.io 双后端自动切换;GitHub 支持 PAT/App Token/CLI 三阶梯认证

6. 模板化输出:内置 Discord(移动端优化)、Email(HTML 富文本)、PDF(A4 中文排版)三套模板

潜在局限

  • API 成本依赖:Twitter/X 和 Brave Search 需付费 API 密钥才能发挥全部性能(免费档有严格速率限制)
  • 英文内容偏向:默认数据源以英文科技圈为主,中文技术媒体覆盖有限
  • 部署复杂度:虽为单命令运行,但 138 个预配置源的理解和定制需要一定学习成本
  • 实时性限制:RSS 和 GitHub 依赖对方更新频率,非真正实时推送

适合人群

  • 技术团队管理者、CTO、VC 投资人:需要系统追踪 AI/LLM/Crypto 等前沿领域动态
  • 开发者社区运营:自动化 Discord/Telegram 频道内容运营
  • 个人极客用户:构建个人知识管理(PKM)的资讯输入层
  • 企业情报团队:竞品监控、技术趋势分析的自动化基础设施

常规风险

  • API 密钥泄露:Twitter、Brave、GitHub 令牌需妥善保管于环境变量,避免硬编码提交
  • 数据去重误判:85% 相似度阈值可能漏判实质重复内容或误判相似标题为不同文章
  • 网络依赖性:单点网络故障可能导致某数据源 50%+ 失败率,需监控 source-health.py
  • 内容合规风险:Reddit/Twitter 抓取内容可能含未审核言论,用于公开渠道前建议人工复核
  • Shell 注入防护:虽设计时已避免用户输入插值,但自定义模板时仍需警惕 "$var" 类构造

安全解读

核心用法

Tech News Digest 是一款自动化科技新闻聚合系统,通过统一的数据源模型、质量评分管道和模板化输出生成每日/每周技术摘要。

数据采集五层架构

  • RSS订阅 (49源):AI实验室博客、技术媒体、中文科技站点
  • Twitter/X KOL (48人):AI研究者、加密领袖、科技高管
  • GitHub发布 (28库):LangChain、vLLM、DeepSeek、Llama等主流开源项目
  • Reddit社区 (13子版块):r/MachineLearning、r/LocalLLaMA、r/CryptoCurrency等
  • Web搜索:LLM、AI Agent、Crypto、Frontier Tech四主题定向检索

执行工作流run-pipeline.py 统一管道并行运行五层采集 → merge-sources.py 质量评分与去重 → 模板渲染 → Discord/邮件/PDF分发。完整流程约30秒,支持cron定时任务集成。

配置灵活性:workspace/config/ 覆盖默认配置,支持源启用/禁用、主题自定义、搜索查询调整,无需修改代码即可适配个人阅读偏好。

显著优点

  • 生产级可靠性:并行采集(10 workers)、指数退避重试、ETag缓存、超时控制(30s)、速率限制自适应
  • 智能质量控制:标题相似度去重(85%阈值)、历史摘要惩罚避免重复、多维度质量评分排序
  • 零依赖部署:Python 3.8+标准库即可运行,可选feedparser/jsonschema增强体验
  • 安全设计:API密钥仅环境变量读取、subprocess调用硬编码参数防注入、URL协议白名单(拒绝javascript:/data:)
  • 多格式输出:Discord移动端优化(2000字符感知)、富文本邮件、A4 PDF(中文排版支持)
  • 运维友好:源健康度监控(7天失败率追踪)、配置验证工具、详细verbose日志

潜在局限

  • API依赖门槛:Twitter/X需付费API(token或twitterapi.io),Brave搜索免费版有速率限制
  • RSS源漂移:138个预配置源需定期维护,部分源可能失效或变更格式
  • 内容深度有限:聚合摘要形式,非深度分析;中文支持依赖Noto Sans CJK SC字体
  • 跨平台隔离:单次会话仅能发送至单一渠道(Discord或Telegram等),多平台需多cron任务
  • 无实时推送:基于定时轮询,非事件驱动;最低粒度小时级

适合人群

  • 技术团队管理者:快速掌握AI/开源/加密领域动态,用于站会分享或团队同步
  • 独立开发者/研究者:定制个人信息流,替代多站点手动浏览
  • 社区运营者:为Discord/Telegram技术社群提供高质量自动化内容
  • 投资者/分析师:追踪前沿技术趋势和开源项目发布节奏

常规风险

  • API配额消耗:Twitter/GitHub/Brave均有调用限制,高频运行可能触发限流
  • 隐私泄露面:RSS源配置可能暴露兴趣画像;邮件发送需信任临时文件写入
  • 供应链风险:依赖feedparser/jsonschema若被攻破存在潜在影响(建议venv隔离)
  • 内容过滤缺失:自动聚合可能包含未经人工审核的争议观点或错误信息

tech-news-digest 内容

config文件夹
defaults文件夹
references文件夹
templates文件夹
scripts文件夹
手动下载zip · 94.2 kB
sources.jsonapplication/json
请选择文件