skills/bobholamovic/PaddleOCR Document Parsing

PaddleOCR Document Parsing

📄 智能文档解析，精准还原复杂版面

ocr-document-parsing榜 #1

PaddleOCR文档解析技能，支持从PDF和图片中提取结构化内容，包括表格、公式、图表、印章等，输出Markdown或JSON格式。

收藏

27.8k

安装

8.5k

版本

2.0.12

CLS 安全扫描中

预计需要 3 分钟...

使用说明

核心用法

PaddleOCR文档解析技能是一个面向复杂文档的OCR与版面分析工具，基于PP-StructureV3/PaddleOCR-VL模型，能够将PDF和图像文档转换为结构化的Markdown或JSON格式。

主要功能：

表格提取：支持单元格级精度的表格识别与还原
公式识别：数学公式自动转换为LaTeX格式
版面分析：处理多栏排版、页眉页脚、阅读顺序
图表与印章：识别文档中的图表、印章等非文本元素

使用流程：
1. 配置环境变量（API_URL和ACCESS_TOKEN）
2. 通过vl_caller.py脚本提交文档（支持URL或本地路径）
3. 解析返回的JSON，提取text字段获得完整Markdown，或深入layoutParsingResults获取结构化数据

显著优点：

中文文档支持优秀，对复杂版面还原度高
输出格式标准化，适合直接接入RAG/搜索流水线
支持100页以内PDF批量处理
提供图像压缩、PDF拆分等辅助工具优化大文件处理

潜在缺点与局限性：

依赖外部API服务，需配置环境变量和有效Token
处理时间较长（单页1-5秒，大PDF可达数分钟）
不支持纯速度优先的简单OCR场景
免费额度有限，超量需付费升级

适合人群：

需要处理发票、财报、论文等复杂版面的数据工作者
构建文档问答系统的RAG开发者
需要将扫描件结构化的企业用户

常规风险：

API凭证需妥善保管，避免泄露于对话历史中
网络依赖性强，离线环境无法使用
输出质量受文档清晰度影响，手写体、低分辨率扫描件识别率下降
大文件处理存在超时风险，建议先压缩或分页

ocr pdf-parsing document-layout table-extraction formula-recognition markdown-export chinese-document pp-structure paddleocr vision-language

PaddleOCR Document Parsing 内容

references文件夹

scripts文件夹

手动下载zip · 16.4 kB

output_schema.mdtext/markdown

请选择文件