使用说明

核心用法

PaddleOCR Doc Parsing 技能通过调用 PP-StructureV3 或 PaddleOCR-VL 系列模型，将复杂文档（PDF/图片）转换为结构化 Markdown 或 JSON 数据。用户通过执行 python scripts/vl_caller.py 脚本，传入文件 URL 或本地路径即可发起解析请求。

关键执行参数：

--file-url / --file-path：指定文档来源
--file-type 0|1：显式声明 PDF(0) 或图片(1)
--pretty：格式化 JSON 输出
--output / --stdout：控制结果存储方式

输出数据结构：

顶层 text：全文档 Markdown 聚合文本
result[n].markdown：单页渲染输出
result[n].prunedResult：带置信度的结构化版面数据
支持表格单元格级还原、公式 LaTeX 输出、印章/图表识别、多栏排版校正

大文件处理：PDF 单请求上限 100 页，可通过 split_pdf.py 提取指定页码后分批处理。

显著优点

1. 版面还原精度高：针对中文文档优化的 PP-StructureV3 模型，在多栏布局、表格嵌套、页眉页脚识别等场景表现优异
2. 多模态输出统一：文本、表格、公式、图表、印章在同一 JSON 结构中标准化输出，便于下游程序化处理
3. 阅读顺序校正：自动重建逻辑阅读顺序，解决扫描件、双栏 PDF 的乱序问题
4. 中英双语支持：原生优化中文场景，同时支持英文文档解析
5. 开源生态背书：基于百度飞桨 PaddleOCR 社区，模型持续迭代

潜在缺点与局限性

1. 云端 API 依赖：必须配置 PADDLEOCR_DOC_PARSING_API_URL 与 PADDLEOCR_ACCESS_TOKEN，无法本地离线运行
2. 配额与成本：受限于 API 调用额度，大文档或高频场景可能产生费用
3. 复杂公式识别：部分手写公式、稀有数学符号识别准确率可能下降
4. 扫描件质量敏感：低分辨率、严重倾斜、水印遮挡的文档需要预处理
5. 安全合规要求：凭证需通过环境变量配置，聊天窗口直接粘贴存在泄露风险

适合人群

财务/法务从业者：批量处理发票、合同、财报中的表格数据
科研人员：提取论文中的公式 LaTeX 与结构化引用
开发者：构建 RAG 知识库、文档问答系统的数据预处理环节
出版/档案数字化：历史报刊、书籍的多栏版面还原与结构化存档

常规风险

凭证泄露风险：API Token 若硬编码或误发至聊天，可能导致账号被盗用
数据出境合规：文档上传至 PaddleOCR 云端 API，涉及敏感信息的文档需评估合规性
服务可用性：依赖第三方 API 稳定性，网络波动或配额耗尽时任务中断
结果准确性：极端复杂版面（如海报、艺术排版）可能识别偏差，需人工校验关键数据

ocr pdf-parsing document-layout-analysis table-extraction formula-recognition markdown-export laicheng chinese-document

PaddleOCR Document Parsing 内容

references文件夹

scripts文件夹

手动下载zip · 18.0 kB

output_schema.mdtext/markdown

请选择文件