核心用法
Tech News Digest 是一套端到端的自动化技术新闻聚合系统,采用流水线架构将分散的信息源整合为结构化摘要。核心工作流分为三个阶段:
1. 数据采集层(6源并行)
- RSS订阅(62个默认源):AI实验室博客、技术媒体、中文科技资讯
- Twitter/X KOL监控(48位):AI研究者、加密领域领袖、科技高管
- GitHub Releases(28个仓库):LangChain、vLLM、DeepSeek等主流开源项目
- GitHub Trending:按LLM/AI Agent/加密/前沿技术四主题自动发现热门仓库
- Reddit(13个子版块):r/MachineLearning、r/LocalLLaMA等社区热点
- Web搜索(4主题):LLM、AI Agent、加密、前沿技术的实时搜索补充
2. 数据处理层
- 统一数据模型:所有来源归一化为标准JSON格式,含标题、URL、时间、来源、主题标签、元数据
- 质量评分算法:基于来源优先级、时效性、互动数据(Twitter点赞/转发、GitHub星标增速、Reddit得分)计算0-15分综合得分
- 智能去重:标题相似度检测(85%阈值)+ 历史摘要交叉比对,避免重复报道
- 文章富化:对高分文章抓取全文内容,优先使用Cloudflare Markdown代理,HTML提取降级,自动识别付费墙内容
3. 输出生成层
- Discord模板:移动端优化、emoji标题、链接抑制、2000字符限制感知
- 邮件模板:富元数据、技术统计、归档链接、执行摘要
- PDF模板:A4排版、Noto Sans CJK SC中文字体、页眉页脚分页
显著优点
- 开箱即用:151个预配置优质源,覆盖中英文技术资讯主流渠道
- 流水线架构:统一脚本
run-pipeline.py30秒完成6源并行采集+合并+评分,支持失败回退到单脚本执行 - 灵活配置:工作空间配置覆盖机制,可禁用默认源、追加自定义源、完全替换主题定义
- 多后端适配:Twitter支持twitterapi.io($3-5/月)和官方X API双后端;搜索支持Tavily/Brave双引擎;GitHub支持PAT/GitHub App CLI/免认证三级降级
- 可靠性设计:指数退避重试、ETag缓存、速率限制自动处理、7天源健康度监控
- 零依赖部署:Python 3.8+标准库即可运行,可选依赖仅增强解析精度
局限性与注意事项
- API成本:完整功能需配置Twitter(~$5/月)和搜索API(Tavily免费1000次/月或Brave付费),仅RSS+GitHub+Reddit可零成本运行但覆盖受限
- 内容质量依赖源配置:评分算法主要基于互动指标而非语义质量,低质但高互动的内容可能获得过高排序
- 中文内容支持有限:PDF模板已集成Noto Sans CJK SC,但默认源以英文为主,中文用户需自行配置国内科技媒体RSS
- Cron调度复杂性:多平台投递需拆分为多个独立任务(OpenClaw安全隔离设计),不能单任务同时发Discord+Telegram
- 提示模板执行模式:依赖agent正确读取并执行
digest-prompt.md指令,非程序化API调用,存在指令理解偏差风险
适合人群
- 技术团队/社区运营者:需要定期向Discord频道或邮件列表投递技术摘要
- 个人开发者:希望一站式追踪AI、开源、加密领域动态,替代手动刷多个平台
- 研究机构/投资人:需要结构化归档技术趋势,支持PDF存档和90天历史回溯
- 中文用户:有技术背景能自行配置国内源补充,且需要PDF中文排版支持
常规风险
| 风险类别 | 具体描述 | 缓解措施 |
|---------|---------|---------|
| API密钥泄露 | 环境变量存储,若系统被入侵可能暴露 | 使用GitHub App而非长周期PAT,定期轮换;生产环境使用secrets manager注入 |
| 供应链攻击 | Python脚本执行网络请求,若GitHub仓库被劫持可能下发恶意代码 | 锁定版本tag安装,审计 `scripts/` 目录变更,在隔离环境运行 |
| 信息茧房 | 源配置偏差导致观点单一 | 定期运行 `source-health.py` 检查源多样性,交叉验证重大新闻 |
| 数据隐私 | RSS/Reddit抓取含公开信息,但Twitter API调用可能关联账户身份 | 使用独立Twitter API key,避免与个人主账户关联 |
| 内容误判 | 自动评分可能漏过高价值低互动内容,或收录争议性话题 | 关键决策前人工复核 `summarize-merged.py` 输出,调整主题搜索词的must_include/exclude规则 |