核心用法
hn-extract 是一款针对 HackerNews 的内容提取工具,通过单一命令将帖子原文与讨论区整合为结构化 Markdown。用户只需提供 HN 帖子 ID、完整 URL 或本地缓存的 Algolia JSON 文件,即可自动生成包含文章正文、元数据及嵌套评论树的单一文档。
工作流程分为三步:首先使用 trafilatura 抓取并清洗外链文章的正文内容;其次调用 Algolia API 获取帖子的元数据(标题、作者、得分、发布时间等)及完整的评论层级结构;最后将三者按可读格式合并输出。评论按线程深度自动缩进,便于追踪讨论脉络。
显著优点
- 零配置依赖:仅需系统安装
uv,Python 依赖由脚本自动拉取并隔离于独立虚拟环境 - 多源输入:支持 ID、URL、本地 JSON 三种方式,适应网络受限或离线复盘场景
- 输出友好:纯 Markdown 格式,兼容任意阅读器、笔记软件及 LLM 上下文窗口
- 容错设计:内置 HTTP 重试机制,对 SSL 配置较严格的站点采用宽松处理
潜在局限
- 反爬限制:需登录态或明确阻止爬虫的网站可能抓取失败
- 动态内容:依赖服务端渲染的页面(如重度 JS 框架)可能提取不完整
- 评论延迟:Algolia API 偶有同步滞后,极端情况下可能缺失最新回复
适合人群
HN 重度读者、研究者、需要构建私有知识库的技术人员,以及希望将社区讨论纳入 LLM 工作流的内容分析师。
常规风险
网络请求暴露用户 IP;抓取频率需自我节制以避免触达 Algolia 或目标站点的速率限制;敏感文章缓存于本地需自行管理存储安全。