使用说明

核心用法

PaddleOCR Document Parsing Skill 是一款面向复杂文档场景的智能解析工具，专为需要从 PDF 和图像中提取结构化数据的用户设计。核心功能围绕 python scripts/vl_caller.py 脚本展开，支持通过 URL 或本地文件路径输入文档，输出包含完整版面信息的 JSON 数据。

关键执行模式：

默认保存模式：结果自动存储至系统临时目录，路径通过 stderr 输出，适合需要保留原始 API 响应的场景
--stdout 模式：直接输出 JSON 到控制台，跳过文件持久化，适合管道处理
--pretty 参数：格式化输出便于调试

输出数据结构：

顶层 text 字段：聚合所有页面的 Markdown 文本，适合快速获取全文
result[n].markdown：单页渲染后的 HTML/Markdown 内容
result[n].prunedResult：结构化解析数据，包含布局区域、置信度、内容类型等元信息

文档处理能力：

表格识别与结构还原（支持财务报告、发票等场景）
数学公式识别并转换为 LaTeX 格式
图表、印章、页眉页脚提取
多栏排版分析与阅读顺序重建
最大支持 100 页 PDF，无文件大小限制

显著优点

1. 版面还原精度高：PP-StructureV3 和 PaddleOCR-VL 系列模型针对中文文档优化，在复杂版面分析上表现优异
2. 多模态输出：同一文档可同时获取纯文本、Markdown、结构化 JSON 三种格式，满足不同下游需求
3. 阅读顺序智能重建：解决多栏、绕排等复杂布局的阅读顺序问题，输出结果可直接用于 NLP 流程
4. 公式专用处理：学术场景友好的 LaTeX 公式输出，减少科研用户的后期编辑成本
5. 开源生态成熟：百度飞桨背书，社区活跃，模型持续迭代（已支持 PaddleOCR-VL-1.5）

潜在缺点与局限性

1. API 依赖性强：必须配置 PADDLEOCR_DOC_PARSING_API_URL 和 PADDLEOCR_ACCESS_TOKEN，无法离线运行，存在服务商锁定风险
2. 环境配置门槛：需要 Python 环境及依赖安装，非技术用户上手成本较高
3. 大文件处理限制：虽然无大小限制，但 100 页/次的分页限制需要用户自行拆分 PDF
4. 无内置重试机制：网络异常或配额耗尽时需人工介入，脚本本身不提供指数退避等容错策略
5. 中文优化偏向：虽然支持英文，但在西文文档的版面分析上可能不如 Abbyy、AWS Textract 等国际方案成熟

适合人群

财务/审计从业者：批量处理发票、财报、合同等结构化文档
科研人员：提取学术论文中的公式、表格，构建知识库
数据工程师：将遗留 PDF 文档转化为可分析的结构化数据
RPA 开发者：集成到自动化流程中，替代人工录入
不适合：仅需简单 OCR 的场景（如名片识别、截图文字提取），使用普通 OCR 更具性价比

常规风险

1. 凭证泄露风险：PADDLEOCR_ACCESS_TOKEN 若硬编码或误提交至版本控制，可能导致 API 配额被盗用
2. 数据隐私合规：文档内容需上传至百度云服务，涉及敏感信息的场景需评估数据出境合规性
3. 成本控制风险：按量计费模式下，大体积文档或高频调用可能产生意外费用
4. 服务可用性依赖：API 端点变更或服务商策略调整可能导致功能中断
5. 输出质量波动：扫描件质量、字体稀有度、复杂手写体等因素会影响识别准确率，需人工校验关键数据

ocr document-parsing pdf-extraction table-recognition latex layout-analysis paddleocr baidu pp-structure

PaddleOCR Document Parsing 内容

references文件夹

scripts文件夹

手动下载zip · 18.0 kB

output_schema.mdtext/markdown

请选择文件