使用说明

核心用法

PaddleOCR 文档解析技能专为复杂文档结构化提取设计，通过调用 PaddleOCR 官方 API 实现高精度版面分析。用户需配置 PADDLEOCR_DOC_PARSING_API_URL 和 PADDLEOCR_ACCESS_TOKEN 环境变量后，执行 python scripts/vl_caller.py 脚本，支持 --file-url 或 --file-path 输入，输出包含完整文档结构的 JSON 数据。

关键特性：

多模态解析：同时提取文本、表格（保留行列结构）、数学公式（LaTeX 格式）、图表及印章
版面还原：智能识别多栏布局、页眉页脚、阅读顺序
灵活输出：支持 --pretty 格式化、--stdout 直出或默认保存至系统临时目录
分页处理：PDF 支持 100 页/请求，提供 split_pdf.py 工具提取指定页面

输出字段说明：

text：全文档 Markdown 聚合文本
result[n].markdown：单页渲染输出
result[n].prunedResult：结构化解析数据（含位置、置信度等元信息）

显著优点

1. 百度飞桨官方背书：依托 PaddleOCR 开源生态，模型经过工业级数据训练，中文文档识别准确率领先
2. 复杂版面专攻：相比纯文本 OCR，针对性解决表格嵌套、公式混排、多栏杂志等复杂场景
3. 结构化保留：输出 JSON 完整保留文档层级关系，便于后续自动化处理（如 RAG 知识库构建）
4. 零本地算力依赖：云端 API 模式，无需本地 GPU 配置

潜在缺点与局限性

强依赖外部 API：需付费或申请 Token，网络波动直接影响可用性，离线环境完全无法使用
硬性配置门槛：必须预装 Python 环境并正确配置三个环境变量，对非技术用户不够友好
输出体积庞大：复杂文档的 JSON 输出可能达数 MB，需自行过滤提取目标内容
100页硬性限制：超长 PDF 需预处理拆分，增加使用复杂度
无容错回退：文档明确禁止"AI 自行分析"等替代方案，API 失败即终止服务

适合人群

需要处理财务报告、学术论文、合同发票等含复杂表格/版面的数字化工作者
构建文档智能（Document AI） pipeline 的开发者，需结构化数据输入
对中文文档识别质量有高要求，且能接受云服务模式的用户

常规风险

| 风险类型 | 说明 |

|---------|------|

| 数据隐私 | 文档内容上传至第三方云端 API，敏感文件存在外泄风险 |

| 服务中断 | API 配额耗尽（429）或 token 失效将直接导致服务不可用 |

| 凭证泄露 | 用户可能在聊天中粘贴 Access Token，存在会话历史留存隐患 |

| 结果完整性 | 尽管 API 返回全量数据，但 AI agent 需严格遵循"不截断"指令，否则易遗漏内容 |

建议：企业敏感文档优先评估私有化部署方案；定期检查 API 配额与 token 有效期。

ocr document-parsing pdf-processing table-extraction paddlepaddle layout-analysis markdown-conversion api-integration

PaddleOCR Document Parsing 内容

references文件夹

scripts文件夹

手动下载zip · 17.5 kB

output_schema.mdtext/markdown

请选择文件