tech-news-digest

📰 六源聚合 · 智能评分 · 多格式推送

六源聚合的自动化科技新闻摘要系统,支持RSS/Twitter/GitHub/Reddit/Web搜索,具备质量评分、去重和多格式输出(Discord/邮件/PDF)。

收藏
23k
安装
8.4k
版本
3.13.1
CLS 安全性认证2026-05-17
点击查看完整报告 >

使用说明

核心用法

Tech News Digest 是一个全自动化的科技新闻聚合与摘要系统,通过统一的六源数据模型(RSS、Twitter/X KOL、GitHub Releases、GitHub Trending、Reddit、Web搜索)采集信息,经质量评分流水线处理后,生成多格式输出(Discord、邮件、PDF)。

典型工作流程
1. 配置 sources.jsontopics.json 定义关注源和主题

2. 设置环境变量(Twitter API、Brave/Tavily搜索、GitHub Token)

3. 运行统一流水线 run-pipeline.py 并行采集6大来源,自动去重评分

4. 应用模板生成最终摘要(Discord/邮件/PDF)

关键特性

  • 151个预配置默认源(62 RSS + 48 Twitter + 28 GitHub + 13 Reddit + 4搜索主题)
  • 智能质量评分系统,基于来源优先级、时效性、参与度计算
  • 多层级GitHub认证:PAT → GitHub App自动Token → gh CLI → 匿名
  • 双Twitter后端:twitterapi.io($3-5/月,推荐)或官方X API v2
  • Web搜索自动降级:Tavily → Brave → 手动搜索界面

显著优点

| 维度 | 优势 |
|------|------|
| **覆盖广度** | 六源聚合,从官方博客到社区讨论,从代码发布到KOL动态 |
| **自动化程度** | 单一命令完成采集→评分→去重→输出,支持Cron定时任务 |
| **配置灵活** | workspace配置覆盖机制,可禁用默认源、追加自定义源 |
| **输出多样** | Discord(移动端优化)、富文本邮件、A4 PDF(中文支持) |
| **可靠性** | 指数退避重试、ETag缓存、速率限制智能处理、源健康监控 |
| **零依赖运行** | 纯Python 3.8+标准库,可选feedparser/jsonschema增强 |
| **安全设计** | 零用户输入插值进shell命令,URL协议白名单,XSS-safe邮件HTML |

潜在局限

1. API成本:Twitter采集需要付费API(twitterapi.io约$3-5/月),免费层级受限
2. 中文内容:默认源以英文为主,中文科技媒体需手动配置

3. 实时性边界:GitHub Trending依赖API估算而非官方趋势算法

4. 全文获取:付费墙内容无法自动提取,依赖Cloudflare Markdown服务可用性

5. 跨平台隔离:OpenClaw安全模型限制单会话只能投递一个平台,多平台需多Cron任务

适合人群

  • 技术团队TL/CTO:每日快速掌握AI、开源、Crypto领域关键动态
  • 开发者社区运营:自动生成Discord/Telegram频道每日摘要
  • 投资人/分析师:追踪前沿技术信号和开源项目热度变化
  • 个人知识工作者:替代手动刷Twitter/GitHub的信息获取习惯

常规风险

| 风险类型 | 说明 | 缓解措施 |
|---------|------|---------|
| API密钥泄露 | Token配置在环境变量,若系统被入侵可能泄露 | 使用GitHub App自动Token减少长期PAT暴露;定期轮换 |
| 信息过载 | 151默认源可能产生过多噪音 | 通过`enabled: false`精简源,调整`max_items`限制输出 |
| 依赖服务故障 | Cloudflare Markdown、第三方API不稳定 | 多级降级逻辑(首选→HTML提取→跳过),本地缓存机制 |
| 内容误判 | 自动评分可能漏掉重要但低信号新闻 | 定期人工review `priority: true`的高优先级源 |
| 隐私合规 | 采集Twitter个人账号、Reddit用户内容 | 仅限公开数据,遵守各平台ToS;企业用户需确认合规 |

版本:v3.13.0 | 维护状态:活跃开发(draco-agent组织)

安全解读

核心用法

tech-news-digest 是一个自动化技术新闻聚合系统,通过统一的流水线从6个数据源采集信息:RSS订阅源(62个)、Twitter/X KOL(48个)、GitHub Releases与Trending(28个仓库)、Reddit讨论(13个子版块)、以及Brave/Tavily网页搜索。用户配置 sources.jsontopics.json定义关注源与主题后,运行run-pipeline.py即可并行拉取、质量评分、去重合并,最终输出为Discord/邮件/PDF格式的日报或周报。

显著优点

1. 多源整合与智能评分:统一数据模型覆盖151个预配置源,内置质量评分算法(基于来源权威性、时效性、互动数据),自动过滤低价值内容
2. 高可配置性:支持工作区级配置覆盖,用户可增删源、调整主题权重、自定义搜索查询,无需修改核心代码

3. 多格式输出:Discord移动端优化模板、富文本邮件(支持PDF附件)、A4 PDF报告(中文排版支持),满足不同场景需求

4. 企业级运维:并行流水线(10 workers)、指数退避重试、ETag缓存、健康监控(source-health.py追踪7天成功率)、90天自动归档

5. 认证灵活:GitHub支持Token/App/CLI三级回退;Twitter支持twitterapi.io($3-5/月)与官方API双后端

潜在缺点与局限性

  • API成本:Twitter源需付费API(官方或第三方);Brave/Tavily搜索需API key;免费版有速率限制
  • 依赖外部服务:任一API故障(如Twitter限流、RSS源失效)会导致该源数据缺失,需监控source-health.py报告
  • 内容质量波动:自动评分可能遗漏 niche 但高价值内容;Reddit/推特信噪比依赖用户配置的KOL质量
  • 部署复杂度:需Python 3.8+、可选依赖(weasyprint for PDF)、多环境变量配置,对非技术用户门槛较高
  • 中文支持有限:PDF模板虽支持Noto Sans CJK,但主要源为英文科技媒体,中文源需自行配置

适合人群

  • 技术团队/开发者:需追踪AI/LLM、开源项目、加密领域动态的研发人员
  • 技术媒体/社区运营:运营Discord/Telegram技术频道,需要自动化内容策展
  • 投资人/分析师:关注前沿科技趋势,需要结构化日报的从业者
  • 自托管爱好者:偏好数据自主、不愿依赖商业聚合服务(如Feedly)的用户

常规风险

  • API密钥泄露风险:虽从环境变量读取,但若.zshenv权限设置不当或日志配置 verbose 可能意外暴露
  • 网络依赖:所有数据来自外部API,无本地离线缓存机制(仅归档历史摘要)
  • 内容合规:自动聚合可能收录争议性技术话题(如加密监管、AI伦理),用户需自行配置exclude过滤规则
  • 版本漂移:Cron任务需严格引用digest-prompt.md,硬编码步骤会导致更新后失效

安全认证要点

经CLS-Certify扫描评级A级(88分):subprocess调用(openssl/gh/msmtp)参数受控无注入风险;网络请求全HTTPS;无硬编码密钥;符合GDPR/CCPA数据最小化原则。主要建议:启用邮件TLS加密、定期审查API调用日志、使用Dependabot跟踪可选依赖(feedparser/jsonschema)安全更新。

tech-news-digest 内容

config文件夹
defaults文件夹
references文件夹
templates文件夹
scripts文件夹
tests文件夹
fixtures文件夹
手动下载zip · 118.3 kB
sources.jsonapplication/json
请选择文件