核心用法
tech-news-digest 是一个企业级自动化科技资讯聚合系统,采用五层数据源架构:RSS 订阅源(49 个)、Twitter/X KOL 监控(48 位)、GitHub 发布追踪(28 个仓库)、Reddit 社区(13 个子版块)以及 Brave 搜索引擎(4 大主题)。用户通过统一的流水线脚本 run-pipeline.py 即可在 30 秒内并行采集、去重、评分并输出结构化数据,支持 Discord、邮件、PDF 等多种投递格式。
显著优点
1. 全自动化流水线:单一命令运行 5 个数据源并行采集,内置指数退避重试、ETag 缓存、速率限制处理
2. 智能质量评分:基于标题相似度去重(85% 阈值)、历史文摘惩罚机制、主题相关性加权
3. 零依赖安全设计:纯 Python 3.8+ 标准库运行,可选依赖仅增强体验;无 pip install 执行风险
4. 灵活配置覆盖:工作区配置可追加/禁用/覆盖默认的 138 个数据源,无需修改核心代码
5. 多后端兼容:Twitter API 支持官方 v2 和 twitterapi.io 双后端自动切换;GitHub 支持 PAT/App Token/CLI 三阶梯认证
6. 模板化输出:内置 Discord(移动端优化)、Email(HTML 富文本)、PDF(A4 中文排版)三套模板
潜在局限
- API 成本依赖:Twitter/X 和 Brave Search 需付费 API 密钥才能发挥全部性能(免费档有严格速率限制)
- 英文内容偏向:默认数据源以英文科技圈为主,中文技术媒体覆盖有限
- 部署复杂度:虽为单命令运行,但 138 个预配置源的理解和定制需要一定学习成本
- 实时性限制:RSS 和 GitHub 依赖对方更新频率,非真正实时推送
适合人群
- 技术团队管理者、CTO、VC 投资人:需要系统追踪 AI/LLM/Crypto 等前沿领域动态
- 开发者社区运营:自动化 Discord/Telegram 频道内容运营
- 个人极客用户:构建个人知识管理(PKM)的资讯输入层
- 企业情报团队:竞品监控、技术趋势分析的自动化基础设施
常规风险
- API 密钥泄露:Twitter、Brave、GitHub 令牌需妥善保管于环境变量,避免硬编码提交
- 数据去重误判:85% 相似度阈值可能漏判实质重复内容或误判相似标题为不同文章
- 网络依赖性:单点网络故障可能导致某数据源 50%+ 失败率,需监控
source-health.py - 内容合规风险:Reddit/Twitter 抓取内容可能含未审核言论,用于公开渠道前建议人工复核
- Shell 注入防护:虽设计时已避免用户输入插值,但自定义模板时仍需警惕
"$var"类构造