boof

🍑 本地隐私优先的文档智能分析

基于本地ML的PDF智能处理工具,无需API即可实现文档转Markdown、RAG索引与token高效分析,保障数据隐私零泄露。

收藏
15.7k
安装
3.7k
版本
v1.0.0
CLS 安全性认证2026-05-18
点击查看完整报告 >

使用说明

核心用法

Boof 是一套本地优先的文档处理工作流,专为解决大语言模型处理长文档时的上下文窗口限制而设计。其核心流程分为三步:Boof it(转换索引)、Query it(语义检索)、Analyze it(高效分析)。用户通过 boof.sh 脚本将 PDF 转换为 Markdown,利用本地 ML 模型 Marker 完成格式解析,再通过 QMD 构建语义索引。后续查询时,系统仅将相关文本块送入 LLM,而非完整文档,从而大幅降低 token 消耗并避免"中间丢失"问题。

该技能支持多种使用模式:针对特定问题的精准查询、整篇文档的分段摘要、多文档交叉对比分析,以及精确匹配与语义搜索的灵活切换。输出文件默认保存至 knowledge/boofed// 目录,支持自定义路径。

显著优点

隐私安全极致:所有处理均在本地完成,文档数据不上传任何云端服务,无需 API Key,对敏感资料处理场景极为友好。成本效益突出:通过 RAG 检索机制,仅将相关片段送入 LLM,显著降低 API 调用成本,特别适合处理大量长文档。离线可用:模型下载完成后即可完全离线运行,不受网络环境制约。批量处理能力:支持多文档统一索引与跨文档查询,提升科研、法律、金融等需要文献综述场景的效率。

潜在缺点与局限性

首次部署成本:需下载 2-4GB 的 ML 模型文件,对磁盘空间和初次等待时间有要求。依赖管理松散:marker-pdf 和 qmd 均未锁定具体版本,存在未来兼容性风险。技术门槛:需要一定的命令行操作能力,环境配置涉及 Python 虚拟环境与 Bun 工具链。功能边界:纯本地架构意味着无法享受云端模型的持续更新,也不支持多人在线协作。

适合的目标群体

  • 科研人员与学术工作者:需要批量处理论文、提取关键发现、进行文献综述
  • 法律与合规从业者:处理敏感合同、法规文件,对数据本地化有硬性要求
  • 企业知识管理:构建内部文档库,实现私有化部署的智能检索
  • 隐私敏感型用户:不愿将商业机密或个人文档上传至第三方服务
  • 离线环境工作者:网络受限场景下的文档分析需求

使用风险

存储空间:需预留 10GB 以上磁盘空间用于模型与索引文件。依赖可用性:若 marker-pdf 或 qmd 未来版本不兼容,可能需要手动干预修复。性能瓶颈:大型 PDF 的本地转换速度取决于硬件配置,复杂文档处理可能耗时较长。学习曲线:RAG 查询语法与常规对话交互有差异,需要适应期。

安全解读

核心用法

Boof 是一套面向大语言模型工作流的本地文档处理工具链,核心解决"PDF内容难以被LLM高效处理"的痛点。

工作流程
1. 转换:调用本地 Marker(ML模型)将PDF转为结构化Markdown

2. 索引:通过 QMD 建立语义向量索引,支持跨文档检索

3. 查询:使用自然语言检索相关文本块,仅将必要内容送入LLM

三种典型场景

  • 精准分析qmd query "论文中的方法论" → 仅返回相关段落,token成本最低
  • 全文摘要:分段读取Markdown,逐段摘要后合并,规避"lost in the middle"问题
  • 跨文档研究:批量索引多篇论文至同一collection,实现跨文献对比

显著优点

  • 本地优先:数据零上传,隐私合规风险极低,适合敏感文档
  • token效率:相比直接塞入整份PDF,检索模式可节省90%+的上下文消耗
  • RAG原生:索引-检索-生成闭环内建,无需额外搭建向量数据库
  • 批量能力:支持多文档并行处理与联合查询

局限与风险

功能局限

  • 依赖本地ML工具(Marker、QMD),首次配置复杂,需Python/Bun环境
  • PDF版式复杂时(多栏/图文混排/手写),Markdown转换质量不稳定
  • 无内置可视化界面,纯CLI驱动,非技术用户门槛较高

潜在风险

  • 环境依赖版本未锁定,工具更新可能导致兼容性问题
  • 缺少输入文件类型校验,存在误处理非PDF文件的可能
  • 索引质量取决于Marker的OCR/版面分析效果,复杂学术图表可能丢失信息

适合人群

  • 研究者:需批量处理论文、技术报告、NOFO文档
  • 知识工作者:需在多篇长文档中快速定位信息
  • 隐私敏感用户:数据不能离开本地环境的场景

常规风险提示

  • 输出路径:默认写入~/.openclaw/workspace/knowledge/boofed,注意磁盘空间
  • 索引持久化:collection名称需自行管理,重复索引同名文档会产生冗余
  • 环境变量MARKER_ENVQMD_BIN等路径需正确配置,否则工具链中断

安全认证亮点

该工具通过CLS-Certify六维检测,S级评分,纯本地架构实现零网络攻击面,GDPR数据最小化原则天然满足。

boof 内容

references文件夹
scripts文件夹
手动下载zip · 6.3 kB
advanced-usage.mdtext/markdown
请选择文件