HackerNews Extract

🦞 HN 文章与评论一键提取

developer-tool榜 #7

一键提取 HN 文章与评论为 Markdown,支持离线阅读与 LLM 分析,依赖 uv 自动管理 Python 环境。

收藏
9.8k
安装
2.8k
版本
0.1.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

hn-extract 是一款针对 HackerNews 的内容提取工具,通过单一命令将帖子原文与讨论区整合为结构化 Markdown。用户只需提供 HN 帖子 ID、完整 URL 或本地缓存的 Algolia JSON 文件,即可自动生成包含文章正文、元数据及嵌套评论树的单一文档。

工作流程分为三步:首先使用 trafilatura 抓取并清洗外链文章的正文内容;其次调用 Algolia API 获取帖子的元数据(标题、作者、得分、发布时间等)及完整的评论层级结构;最后将三者按可读格式合并输出。评论按线程深度自动缩进,便于追踪讨论脉络。

显著优点

  • 零配置依赖:仅需系统安装 uv,Python 依赖由脚本自动拉取并隔离于独立虚拟环境
  • 多源输入:支持 ID、URL、本地 JSON 三种方式,适应网络受限或离线复盘场景
  • 输出友好:纯 Markdown 格式,兼容任意阅读器、笔记软件及 LLM 上下文窗口
  • 容错设计:内置 HTTP 重试机制,对 SSL 配置较严格的站点采用宽松处理

潜在局限

  • 反爬限制:需登录态或明确阻止爬虫的网站可能抓取失败
  • 动态内容:依赖服务端渲染的页面(如重度 JS 框架)可能提取不完整
  • 评论延迟:Algolia API 偶有同步滞后,极端情况下可能缺失最新回复

适合人群

HN 重度读者、研究者、需要构建私有知识库的技术人员,以及希望将社区讨论纳入 LLM 工作流的内容分析师。

常规风险

网络请求暴露用户 IP;抓取频率需自我节制以避免触达 Algolia 或目标站点的速率限制;敏感文章缓存于本地需自行管理存储安全。

HackerNews Extract 内容

手动下载zip · 3.4 kB
hn-extract.pytext/plain
请选择文件