HackerNews Extract

🦞 HN 内容一键萃取,原文评论全收录

Content Extraction榜 #1

一键提取 HackerNews 文章与完整评论树为结构化 Markdown,便于快速阅读或喂给 LLM 分析

收藏
13.1k
安装
2.8k
版本
0.1.2
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

hn-extract 是一款基于 Python 的 HackerNews 内容提取工具,通过 uv 脚本运行,无需复杂安装。它接受 HackerNews ID、URL 或本地 Algolia JSON 文件作为输入,自动抓取原始文章内容(使用 trafilatura 清理 HTML)并通过 HN Algolia API 获取帖子元数据与完整评论树,最终输出为单一结构化的 Markdown 文件。

显著优点

  • 零依赖预装:仅需 uv 即可运行,依赖自动隔离安装
  • 内容完整性:同时获取原文与评论,保留讨论上下文
  • 结构化输出:评论按线程深度缩进,便于追踪对话脉络
  • LLM 友好:清洗后的 Markdown 格式适合直接输入大模型进行摘要或分析
  • 容错设计:HTTP 请求带重试机制,SSL 处理宽松以提升可用性

潜在局限

  • 抓取限制:需要登录验证或明确屏蔽爬虫的网站可能提取失败
  • 内容质量依赖源站trafilatura 对复杂排版或动态渲染页面的提取效果不稳定
  • 无增量更新:单次提取,不支持追踪后续新增评论

适合人群

HN 重度读者、研究员、需要批量归档技术讨论内容的开发者,以及希望将社区讨论喂给 LLM 进行分析的内容策展者。

常规风险

  • 高频请求可能触发 HN 或目标站点的速率限制
  • 自动 SSL 宽松处理可能在极端场景下引入中间人风险
  • 提取内容可能包含未经验证的链接,后续点击需谨慎

HackerNews Extract 内容

手动下载zip · 3.8 kB
hn-extract.pytext/plain
请选择文件