使用说明

核心用法

hn-extract 是一款基于 Python 的 HackerNews 内容提取工具，通过 uv 脚本运行，无需复杂安装。它接受 HackerNews ID、URL 或本地 Algolia JSON 文件作为输入，自动抓取原始文章内容（使用 trafilatura 清理 HTML）并通过 HN Algolia API 获取帖子元数据与完整评论树，最终输出为单一结构化的 Markdown 文件。

显著优点

零依赖预装：仅需 uv 即可运行，依赖自动隔离安装
内容完整性：同时获取原文与评论，保留讨论上下文
结构化输出：评论按线程深度缩进，便于追踪对话脉络
LLM 友好：清洗后的 Markdown 格式适合直接输入大模型进行摘要或分析
容错设计：HTTP 请求带重试机制，SSL 处理宽松以提升可用性

潜在局限

抓取限制：需要登录验证或明确屏蔽爬虫的网站可能提取失败
内容质量依赖源站：trafilatura 对复杂排版或动态渲染页面的提取效果不稳定
无增量更新：单次提取，不支持追踪后续新增评论

适合人群

HN 重度读者、研究员、需要批量归档技术讨论内容的开发者，以及希望将社区讨论喂给 LLM 进行分析的内容策展者。

常规风险

高频请求可能触发 HN 或目标站点的速率限制
自动 SSL 宽松处理可能在极端场景下引入中间人风险
提取内容可能包含未经验证的链接，后续点击需谨慎

hackernews content-extraction web-scraping markdown python uv reader summarization

HackerNews Extract 内容

手动下载zip · 3.8 kB

hn-extract.pytext/plain

请选择文件