使用说明

核心用法

PaddleOCR Document Parsing 是一款面向复杂文档的智能解析技能，基于百度飞桨开源生态。用户通过调用 vl_caller.py 脚本，将 PDF 或图像文件上传至 API，获取包含完整文档结构的结构化输出。

基本执行流程：

支持 URL 或本地文件输入：--file-url 或 --file-path
输出格式可选：默认保存 JSON 临时文件，或使用 --stdout 直接输出
关键输出字段：text（完整 Markdown 文本）、result[n].markdown（单页渲染）、result[n].prunedResult（结构化元数据）

典型场景：

含表格的财务报告、发票
含 LaTeX 公式的学术论文
多栏排版的杂志、报纸
含图表和印章的复杂合同

显著优点

1. 结构完整性：原生保留表格结构、数学公式、图表位置、页眉页脚等版面元素
2. 双模输出：同时提供 Markdown 渲染结果和结构化 JSON，兼顾可读性与程序化处理
3. 中文优化：PaddleOCR 在中文文档识别准确率上处于业界领先地位
4. 开源生态：依托百度飞桨，模型持续迭代（支持 PP-StructureV3、PaddleOCR-VL 等）
5. 灵活部署：支持云端 API 调用，也可本地私有化部署

潜在缺点与局限性

1. 配置门槛：需手动配置 PADDLEOCR_DOC_PARSING_API_URL 和 PADDLEOCR_ACCESS_TOKEN，对非技术用户不友好
2. 成本约束：依赖 API 配额，大量文档处理可能产生费用
3. 页数限制：单次请求最多支持 100 页 PDF，超大文档需拆分处理
4. 无本地兜底：技能明确禁止降级到本地 OCR，API 故障时完全不可用
5. 延迟问题：复杂文档解析涉及布局分析，响应时间显著高于简单 OCR

适合人群

学术研究者：需要提取论文中的公式、表格、参考文献结构
财务/法务人员：处理发票、合同、审计报告等版式复杂的文档
数据工程师：构建文档自动化处理流水线，需要结构化 JSON 输出
出版行业：数字化报纸、杂志等多栏排版内容

常规风险

1. 凭证泄露风险：用户可能在聊天中粘贴 API Token，建议通过配置文件或环境变量安全设置
2. 数据隐私：文档内容需上传至 PaddleOCR 服务端，敏感文件需评估合规性
3. 网络依赖：完全依赖外部 API，离线环境无法使用
4. 结果验证：尽管提供置信度分数，复杂表格和手写内容仍需人工复核
5. 版本差异：不同 API 端点（PP-StructureV3 vs PaddleOCR-VL）能力存在差异，需确认所用模型版本

ocr pdf-parsing document-intelligence table-extraction markdown-conversion layout-analysis chinese-language open-source

PaddleOCR Document Parsing 内容

references文件夹

scripts文件夹

手动下载zip · 17.7 kB

output_schema.mdtext/markdown

请选择文件