tech-news-digest

📰 五源聚合·智能评分·多格式自动投递

data-automation榜 #1

专业级科技新闻聚合系统,五层数据源统一模型+质量评分+多格式输出,支持Discord、邮件和PDF分发

收藏
31.3k
安装
8.4k
版本
3.10.3
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

Tech News Digest 是一套面向技术从业者和投资者的自动化新闻聚合系统,通过五层数据源(RSS订阅、Twitter/X KOL、GitHub发布、Reddit讨论、Brave Web搜索)构建统一数据模型,经质量评分和去重后生成结构化摘要。

主要工作流程
1. 数据收集层:并行执行5类抓取脚本(RSS/48源、Twitter KOL/48人、GitHub/28仓库、Reddit/13社区、Web搜索/4主题),支持指数退避重试和ETag缓存

2. 质量处理层merge-sources.py 执行标题相似度去重(85%阈值)、历史摘要惩罚、多维度评分排序

3. 输出生成层:支持Discord消息、HTML邮件(XSS安全过滤)、A4 PDF(含中文排版)三种格式

推荐用法:通过 run-pipeline.py 统一管道一键执行(约30秒完成),或配合 digest-prompt.md 模板实现定时任务自动化。

显著优点

  • 数据源权威:预配置138个高质量源,涵盖OpenAI、Anthropic官方博客,Andrej Karpathy、Sam Altman等KOL,LangChain、vLLM等核心开源项目
  • 架构工程化:完整的管道设计(并行抓取→合并评分→模板渲染)、JSON Schema配置校验、7天源健康度监控
  • 灵活可扩展:workspace配置覆盖机制,支持新增源/禁用默认源/自定义主题搜索词,无需修改核心代码
  • 多后端兼容:Twitter支持twitterapi.io(推荐,$3-5/月)和官方API双后端自动切换;GitHub支持PAT、App自动签发、gh CLI三档认证
  • 安全设计:禁止用户输入插值到shell命令,URL白名单限制http(s),邮件主题使用硬编码格式字符串

潜在缺点与局限

  • API依赖成本:完整功能需付费API(Twitter、Brave Search),免费 tier 有严格速率限制
  • 英文内容为主:预配置源以英文技术社区为核心,中文源仅覆盖少数媒体(如机器之心)
  • 部署复杂度:需要Python 3.8+环境、多个可选依赖(weasyprint用于PDF)、环境变量配置管理
  • 评分算法黑盒:质量评分逻辑封装在merge脚本中,用户无法自定义权重或接入LLM重排序
  • OpenClaw限制:单次会话只能投递到一个平台(Discord/Telegram隔离),多平台需配置多个cron任务

适合人群

  • 技术投资者/分析师:需追踪AI、Crypto、前沿科技多领域动态,依赖结构化摘要做决策
  • 开发者社区运营:维护Discord/Slack技术频道,需要自动化内容供给
  • 个人知识管理:希望替代Feedly/Twitter Lists,自建可控的信息流归档系统
  • 研究团队:需要多源聚合+历史去重+PDF存档的合规信息收集流程

常规风险

  • 源失效风险:RSS feed变更、Twitter API政策调整、Reddit限流可能导致数据缺口,需关注source-health.py报告
  • 隐私泄露风险: Brave Search查询、Twitter监控行为会暴露关注兴趣,敏感领域建议使用自托管替代方案
  • 内容误判风险:自动评分可能过滤高价值长尾内容,建议定期人工抽查 summarize-merged.py 输出
  • 凭证管理风险:GitHub App私钥文件路径需严格权限控制,避免GH_APP_KEY_FILE指向共享目录

tech-news-digest 内容

暂无文件树

手动下载zip · 94.6 kB
contentapplication/octet-stream
请选择文件