核心用法
hn-extract 是一款基于 Python 的 HackerNews 内容提取工具,通过 uv 脚本运行,无需复杂安装。它接受 HackerNews ID、URL 或本地 Algolia JSON 文件作为输入,自动抓取原始文章内容(使用 trafilatura 清理 HTML)并通过 HN Algolia API 获取帖子元数据与完整评论树,最终输出为单一结构化的 Markdown 文件。
显著优点
- 零依赖预装:仅需
uv即可运行,依赖自动隔离安装 - 内容完整性:同时获取原文与评论,保留讨论上下文
- 结构化输出:评论按线程深度缩进,便于追踪对话脉络
- LLM 友好:清洗后的 Markdown 格式适合直接输入大模型进行摘要或分析
- 容错设计:HTTP 请求带重试机制,SSL 处理宽松以提升可用性
潜在局限
- 抓取限制:需要登录验证或明确屏蔽爬虫的网站可能提取失败
- 内容质量依赖源站:
trafilatura对复杂排版或动态渲染页面的提取效果不稳定 - 无增量更新:单次提取,不支持追踪后续新增评论
适合人群
HN 重度读者、研究员、需要批量归档技术讨论内容的开发者,以及希望将社区讨论喂给 LLM 进行分析的内容策展者。
常规风险
- 高频请求可能触发 HN 或目标站点的速率限制
- 自动 SSL 宽松处理可能在极端场景下引入中间人风险
- 提取内容可能包含未经验证的链接,后续点击需谨慎