tech-news-digest

📰 六源聚合 · 智能评分 · 一键投递

data-processing榜 #3

自动化技术新闻聚合系统,整合6大来源(RSS/Twitter/GitHub/Reddit/Web搜索)的数据采集、质量评分与多格式输出,支持Discord/邮件/PDF投递

收藏
20.7k
安装
8.4k
版本
3.14.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

Tech News Digest 是一套端到端的自动化技术新闻聚合系统,采用流水线架构将分散的信息源整合为结构化摘要。核心工作流分为三个阶段:

1. 数据采集层(6源并行)

  • RSS订阅(62个默认源):AI实验室博客、技术媒体、中文科技资讯
  • Twitter/X KOL监控(48位):AI研究者、加密领域领袖、科技高管
  • GitHub Releases(28个仓库):LangChain、vLLM、DeepSeek等主流开源项目
  • GitHub Trending:按LLM/AI Agent/加密/前沿技术四主题自动发现热门仓库
  • Reddit(13个子版块):r/MachineLearning、r/LocalLLaMA等社区热点
  • Web搜索(4主题):LLM、AI Agent、加密、前沿技术的实时搜索补充

2. 数据处理层

  • 统一数据模型:所有来源归一化为标准JSON格式,含标题、URL、时间、来源、主题标签、元数据
  • 质量评分算法:基于来源优先级、时效性、互动数据(Twitter点赞/转发、GitHub星标增速、Reddit得分)计算0-15分综合得分
  • 智能去重:标题相似度检测(85%阈值)+ 历史摘要交叉比对,避免重复报道
  • 文章富化:对高分文章抓取全文内容,优先使用Cloudflare Markdown代理,HTML提取降级,自动识别付费墙内容

3. 输出生成层

  • Discord模板:移动端优化、emoji标题、链接抑制、2000字符限制感知
  • 邮件模板:富元数据、技术统计、归档链接、执行摘要
  • PDF模板:A4排版、Noto Sans CJK SC中文字体、页眉页脚分页

显著优点

  • 开箱即用:151个预配置优质源,覆盖中英文技术资讯主流渠道
  • 流水线架构:统一脚本 run-pipeline.py 30秒完成6源并行采集+合并+评分,支持失败回退到单脚本执行
  • 灵活配置:工作空间配置覆盖机制,可禁用默认源、追加自定义源、完全替换主题定义
  • 多后端适配:Twitter支持twitterapi.io($3-5/月)和官方X API双后端;搜索支持Tavily/Brave双引擎;GitHub支持PAT/GitHub App CLI/免认证三级降级
  • 可靠性设计:指数退避重试、ETag缓存、速率限制自动处理、7天源健康度监控
  • 零依赖部署:Python 3.8+标准库即可运行,可选依赖仅增强解析精度

局限性与注意事项

  • API成本:完整功能需配置Twitter(~$5/月)和搜索API(Tavily免费1000次/月或Brave付费),仅RSS+GitHub+Reddit可零成本运行但覆盖受限
  • 内容质量依赖源配置:评分算法主要基于互动指标而非语义质量,低质但高互动的内容可能获得过高排序
  • 中文内容支持有限:PDF模板已集成Noto Sans CJK SC,但默认源以英文为主,中文用户需自行配置国内科技媒体RSS
  • Cron调度复杂性:多平台投递需拆分为多个独立任务(OpenClaw安全隔离设计),不能单任务同时发Discord+Telegram
  • 提示模板执行模式:依赖agent正确读取并执行 digest-prompt.md 指令,非程序化API调用,存在指令理解偏差风险

适合人群

  • 技术团队/社区运营者:需要定期向Discord频道或邮件列表投递技术摘要
  • 个人开发者:希望一站式追踪AI、开源、加密领域动态,替代手动刷多个平台
  • 研究机构/投资人:需要结构化归档技术趋势,支持PDF存档和90天历史回溯
  • 中文用户:有技术背景能自行配置国内源补充,且需要PDF中文排版支持

常规风险

| 风险类别 | 具体描述 | 缓解措施 |
|---------|---------|---------|
| API密钥泄露 | 环境变量存储,若系统被入侵可能暴露 | 使用GitHub App而非长周期PAT,定期轮换;生产环境使用secrets manager注入 |
| 供应链攻击 | Python脚本执行网络请求,若GitHub仓库被劫持可能下发恶意代码 | 锁定版本tag安装,审计 `scripts/` 目录变更,在隔离环境运行 |
| 信息茧房 | 源配置偏差导致观点单一 | 定期运行 `source-health.py` 检查源多样性,交叉验证重大新闻 |
| 数据隐私 | RSS/Reddit抓取含公开信息,但Twitter API调用可能关联账户身份 | 使用独立Twitter API key,避免与个人主账户关联 |
| 内容误判 | 自动评分可能漏过高价值低互动内容,或收录争议性话题 | 关键决策前人工复核 `summarize-merged.py` 输出,调整主题搜索词的must_include/exclude规则 |

tech-news-digest 内容

暂无文件树

手动下载zip · 118.5 kB
contentapplication/octet-stream
请选择文件