tech-news-digest

📰 五层数据源 · 智能去重 · 一键多格式投递

自动化榜 #1

自动化科技新闻聚合系统,整合RSS、Twitter KOL、GitHub、Reddit和搜索五层数据源,支持智能去重、质量评分与多格式输出(Discord/邮件/PDF)。

收藏
34.2k
安装
8.4k
版本
3.13.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

Tech News Digest 是一个面向技术从业者与投资者的多源新闻聚合自动化系统,采用统一数据模型和流水线架构,从五大渠道采集内容:

  • RSS订阅(49个源):OpenAI、Anthropic、技术博客等
  • Twitter/X KOL监控(48个账号):AI研究者、加密货币领袖、科技高管
  • GitHub Releases(28个仓库):LangChain、vLLM、DeepSeek、Llama等开源项目
  • Reddit(13个子版块):r/MachineLearning、r/CryptoCurrency等
  • Web搜索(4个主题领域):LLM、AI Agent、Crypto、Frontier Tech

核心工作流通过 run-pipeline.py 统一执行,并行抓取五层数据,经智能去重(85%标题相似度)、质量评分(基于来源权威性+时效性+互动指标)后,输出结构化JSON,再经模板引擎生成Discord、邮件或PDF格式的日报/周报。

显著优点

1. 全自动化流水线:单次命令完成数据采集→去重→评分→格式化,约30秒出稿
2. 企业级鲁棒性:指数退避重试、API密钥轮询、GitHub App自动Token生成、ETag缓存

3. 高度可配置:workspace层覆盖默认配置,支持新增/禁用源、自定义主题搜索策略、调整展示样式

4. 多格式输出:移动端优化的Discord简报、带归档链接的富文本邮件、A4 PDF(支持中文排版)

5. 零依赖设计:纯Python 3.8+标准库运行,可选依赖仅提升体验

6. 智能去重机制:跨源标题相似度检测 + 历史digest惩罚,避免重复推送

潜在缺点与局限性

  • API成本:Twitter需第三方服务(twitterapi.io $3-5/月)或官方API;搜索层需Tavily/Brave密钥
  • 中文支持有限:虽PDF支持Noto Sans CJK,但内容源以英文为主,中文科技媒体需手动添加
  • Reddit依赖公开API:无认证,可能受rate limit或结构变动影响
  • 模板固定:输出格式受预设模板限制,深度自定义需修改Markdown模板文件
  • 无LLM摘要:当前版本仅聚合链接+元数据,不生成AI摘要(需外部LLM处理)
  • OpenClaw平台限制:单次会话只能投递一个渠道(Discord或Telegram),多平台需多job

适合人群

  • 技术投资者/VC:追踪AI、Crypto等前沿领域动态
  • 开发者关系/DevRel:监控竞品发布、社区讨论热度
  • 技术团队负责人:团队内部技术雷达、每周分享素材
  • 独立研究者:构建个人知识库,替代手动刷推/RSS

常规风险

| 风险类型 | 说明 | 缓解措施 |
|---------|------|---------|
| API密钥泄露 | 密钥存于环境变量,可能被其他进程读取 | 使用最小权限密钥,定期轮换,优先GitHub App模式(JWT短时有效) |
| 信息过载 | 138个默认源可能导致噪音 | 通过`priority`标记、topic过滤、workspace禁用不需要的源 |
| 来源偏见 | RSS/KOL选择隐含立场 | 主动配置多元来源,交叉验证重大新闻 |
| 依赖服务失效 | Twitter API政策变动、Reddit封禁 | 系统graceful降级,缺失源不影响其他层运行 |
| 自动化误报 | 相似标题不同内容可能被去重 | 调低相似度阈值或人工抽查archive |

安全设计亮点

  • 零用户输入执行:所有shell命令参数为skill内建常量,禁止插值 fetched content
  • URL白名单:仅允许http/https scheme,拒绝javascript:等危险协议
  • XSS防护:邮件HTML通过sanitize-html.py处理,inline CSS隔离,内容转义
  • 最小权限:GitHub auth cascade设计允许纯无认证运行,credential discovery显式可控

tech-news-digest 内容

暂无文件树

手动下载zip · 117.5 kB
contentapplication/octet-stream
请选择文件