核心用法
Tech News Digest 是一个面向技术从业者与投资者的多源新闻聚合自动化系统,采用统一数据模型和流水线架构,从五大渠道采集内容:
- RSS订阅(49个源):OpenAI、Anthropic、技术博客等
- Twitter/X KOL监控(48个账号):AI研究者、加密货币领袖、科技高管
- GitHub Releases(28个仓库):LangChain、vLLM、DeepSeek、Llama等开源项目
- Reddit(13个子版块):r/MachineLearning、r/CryptoCurrency等
- Web搜索(4个主题领域):LLM、AI Agent、Crypto、Frontier Tech
核心工作流通过 run-pipeline.py 统一执行,并行抓取五层数据,经智能去重(85%标题相似度)、质量评分(基于来源权威性+时效性+互动指标)后,输出结构化JSON,再经模板引擎生成Discord、邮件或PDF格式的日报/周报。
显著优点
1. 全自动化流水线:单次命令完成数据采集→去重→评分→格式化,约30秒出稿
2. 企业级鲁棒性:指数退避重试、API密钥轮询、GitHub App自动Token生成、ETag缓存
3. 高度可配置:workspace层覆盖默认配置,支持新增/禁用源、自定义主题搜索策略、调整展示样式
4. 多格式输出:移动端优化的Discord简报、带归档链接的富文本邮件、A4 PDF(支持中文排版)
5. 零依赖设计:纯Python 3.8+标准库运行,可选依赖仅提升体验
6. 智能去重机制:跨源标题相似度检测 + 历史digest惩罚,避免重复推送
潜在缺点与局限性
- API成本:Twitter需第三方服务(twitterapi.io $3-5/月)或官方API;搜索层需Tavily/Brave密钥
- 中文支持有限:虽PDF支持Noto Sans CJK,但内容源以英文为主,中文科技媒体需手动添加
- Reddit依赖公开API:无认证,可能受rate limit或结构变动影响
- 模板固定:输出格式受预设模板限制,深度自定义需修改Markdown模板文件
- 无LLM摘要:当前版本仅聚合链接+元数据,不生成AI摘要(需外部LLM处理)
- OpenClaw平台限制:单次会话只能投递一个渠道(Discord或Telegram),多平台需多job
适合人群
- 技术投资者/VC:追踪AI、Crypto等前沿领域动态
- 开发者关系/DevRel:监控竞品发布、社区讨论热度
- 技术团队负责人:团队内部技术雷达、每周分享素材
- 独立研究者:构建个人知识库,替代手动刷推/RSS
常规风险
| 风险类型 | 说明 | 缓解措施 |
|---------|------|---------|
| API密钥泄露 | 密钥存于环境变量,可能被其他进程读取 | 使用最小权限密钥,定期轮换,优先GitHub App模式(JWT短时有效) |
| 信息过载 | 138个默认源可能导致噪音 | 通过`priority`标记、topic过滤、workspace禁用不需要的源 |
| 来源偏见 | RSS/KOL选择隐含立场 | 主动配置多元来源,交叉验证重大新闻 |
| 依赖服务失效 | Twitter API政策变动、Reddit封禁 | 系统graceful降级,缺失源不影响其他层运行 |
| 自动化误报 | 相似标题不同内容可能被去重 | 调低相似度阈值或人工抽查archive |
安全设计亮点
- 零用户输入执行:所有shell命令参数为skill内建常量,禁止插值 fetched content
- URL白名单:仅允许http/https scheme,拒绝javascript:等危险协议
- XSS防护:邮件HTML通过
sanitize-html.py处理,inline CSS隔离,内容转义 - 最小权限:GitHub auth cascade设计允许纯无认证运行,credential discovery显式可控