核心功能
hn-extract 是一款轻量级 HackerNews 内容提取工具,通过单一 Python 脚本将 HN 帖子的外链文章与评论区整合为一份结构化 Markdown 文档。用户只需提供 HN ID 或完整 URL,工具即自动抓取原文 HTML、清洗格式、提取元数据,并按线程深度缩进排版评论,最终输出适合快速阅读或 LLM 输入的干净文本。
显著优点
- 零配置即用:依赖 uv 实现自动虚拟环境与包管理,无需手动安装 Python 依赖
- 单文件可移植:单脚本架构,便于嵌入各类 Agent 工作流或本地调用
- 结构化输出:文章与评论分离、评论按层级缩进,保留讨论脉络
- 工具链友好:支持
-o指定输出路径,便于下游自动化处理
潜在局限
- 反爬风险:部分站点需认证或启用反爬机制,可能导致抓取失败
- 无内置缓存:重复提取相同帖子将重新发起 HTTP 请求
- 格式依赖:原文 HTML 结构异常时,清洗效果可能不稳定
- Python 限定:依赖 uv 运行时环境,对非 Python 生态用户不够友好
适合人群
- 需要离线阅读 HN 长文的开发者
- 构建 AI 摘要、知识库归档的自动化工作流
- 研究人员批量采集技术社区讨论数据
常规风险
- 频繁请求可能触发 HN 或目标站点速率限制
- 提取内容受原站版权约束,商用需注意合规性
- 评论区内容未经审核,直接用于训练存在偏见风险
使用建议
建议搭配本地 LLM 或 RAG 系统使用,提取后即时摘要而非长期存储原始数据。