使用说明

hn-extract 是一款针对 HackerNews 的内容提取工具，通过单一命令将帖子原文与讨论区整合为结构化 Markdown。用户只需提供 HN 帖子 ID、完整 URL 或本地缓存的 Algolia JSON 文件，即可自动生成包含文章正文、元数据及嵌套评论树的单一文档。

工作流程分为三步：首先使用 trafilatura 抓取并清洗外链文章的正文内容；其次调用 Algolia API 获取帖子的元数据（标题、作者、得分、发布时间等）及完整的评论层级结构；最后将三者按可读格式合并输出。评论按线程深度自动缩进，便于追踪讨论脉络。

HN 重度读者、研究者、需要构建私有知识库的技术人员，以及希望将社区讨论纳入 LLM 工作流的内容分析师。

网络请求暴露用户 IP；抓取频率需自我节制以避免触达 Algolia 或目标站点的速率限制；敏感文章缓存于本地需自行管理存储安全。

HackerNews Extract 内容

手动下载zip · 3.4 kB

hn-extract.pytext/plain

请选择文件