PaddleOCR Document Parsing

📄 多模态文档解析,一键还原复杂版面

ocr-document-parsing榜 #1

基于百度PaddleOCR的多模态文档解析技能,支持PDF/图像的表格、公式、图表、版面还原等结构化提取,输出Markdown与JSON格式。

收藏
32.6k
安装
8.5k
版本
2.0.10
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

PaddleOCR Doc Parsing是百度飞桨团队开发的企业级文档解析技能,基于PP-StructureV3/PaddleOCR-VL多模态模型,通过专用API脚本vl_caller.py调用。支持两种输入方式:

  • 远程文件:--file-url参数传入URL
  • 本地文件:--file-path参数传入路径
  • 可选--file-type显式指定PDF(0)或图像(1)

输出采用信封式JSON结构,包含三层关键数据:

  • text:全文档级Markdown文本(快速展示用)
  • result[n].markdown:单页渲染输出(分页展示用)
  • result[n].prunedResult:结构化解析数据(含坐标、置信度、阅读顺序等元数据)

重要约束:该技能有严格的"单一入口"原则——必须通过官方Python脚本调用API,禁止直接解析、禁止备用方案、API失败即停止。

显著优点

1. 多模态原生支持:表格识别精确到单元格级别、数学公式输出LaTeX、图表/印章/页眉页脚全量提取
2. 版面智能还原:正确处理多栏排版、阅读顺序重建、复杂学术论文与财报格式

3. 输出格式灵活:同时提供人类可读的Markdown和机器可处理的结构化JSON

4. 大文件处理机制:支持100页以内PDF,提供split_pdf.py工具进行页级拆分

5. 工业级背书:百度飞桨官方维护,PP-Structure系列在中文文档解析领域具有权威性

潜在局限

1. 强依赖外部API:必须配置PADDLEOCR_DOC_PARSING_API_URLPADDLEOCR_ACCESS_TOKEN,本地无法离线运行
2. 无降级策略:API不可用时完全不可用,禁止 fallback 到本地OCR或其他模型

3. 输出体积大:完整JSON包含全部版面信息,需自行筛选展示,存在信息过载风险

4. 配额与成本:存在每日API调用限额(429错误),大规模使用需付费升级

5. 中文优化偏向:对英文复杂排版的处理可能弱于英文专用工具(如Marker)

适合人群

  • 财务人员:发票、财报、审计报告的表格结构化提取
  • 科研人员:学术论文PDF的公式识别与多栏版面还原
  • 法律/政务从业者:扫描件合同、公文、印章文档的数字化
  • 开发者:需要prunedResult中的坐标和置信度数据进行二次开发

常规风险

1. 凭证泄露风险:用户可能在聊天中粘贴API Token,需警告并引导至配置文件设置
2. 数据出境合规:文档内容需上传至PaddleOCR云服务,敏感文件需评估合规性

3. 阅读顺序误判:极端复杂排版(如杂志广告页)可能出现阅读顺序错误,需人工校验

4. LaTeX公式质量:手写公式或低质量扫描件可能产生LaTeX编译错误

PaddleOCR Document Parsing 内容

暂无文件树

手动下载zip · 18.0 kB
contentapplication/octet-stream
请选择文件