使用说明

核心用法

PaddleOCR Doc Parsing是百度飞桨团队开发的企业级文档解析技能，基于PP-StructureV3/PaddleOCR-VL多模态模型，通过专用API脚本vl_caller.py调用。支持两种输入方式：

远程文件：--file-url参数传入URL
本地文件：--file-path参数传入路径
可选--file-type显式指定PDF(0)或图像(1)

输出采用信封式JSON结构，包含三层关键数据：

text：全文档级Markdown文本（快速展示用）
result[n].markdown：单页渲染输出（分页展示用）
result[n].prunedResult：结构化解析数据（含坐标、置信度、阅读顺序等元数据）

重要约束：该技能有严格的"单一入口"原则——必须通过官方Python脚本调用API，禁止直接解析、禁止备用方案、API失败即停止。

显著优点

1. 多模态原生支持：表格识别精确到单元格级别、数学公式输出LaTeX、图表/印章/页眉页脚全量提取
2. 版面智能还原：正确处理多栏排版、阅读顺序重建、复杂学术论文与财报格式
3. 输出格式灵活：同时提供人类可读的Markdown和机器可处理的结构化JSON
4. 大文件处理机制：支持100页以内PDF，提供split_pdf.py工具进行页级拆分
5. 工业级背书：百度飞桨官方维护，PP-Structure系列在中文文档解析领域具有权威性

潜在局限

1. 强依赖外部API：必须配置PADDLEOCR_DOC_PARSING_API_URL和PADDLEOCR_ACCESS_TOKEN，本地无法离线运行
2. 无降级策略：API不可用时完全不可用，禁止 fallback 到本地OCR或其他模型
3. 输出体积大：完整JSON包含全部版面信息，需自行筛选展示，存在信息过载风险
4. 配额与成本：存在每日API调用限额(429错误)，大规模使用需付费升级
5. 中文优化偏向：对英文复杂排版的处理可能弱于英文专用工具（如Marker）

适合人群

财务人员：发票、财报、审计报告的表格结构化提取
科研人员：学术论文PDF的公式识别与多栏版面还原
法律/政务从业者：扫描件合同、公文、印章文档的数字化
开发者：需要prunedResult中的坐标和置信度数据进行二次开发

常规风险

1. 凭证泄露风险：用户可能在聊天中粘贴API Token，需警告并引导至配置文件设置
2. 数据出境合规：文档内容需上传至PaddleOCR云服务，敏感文件需评估合规性
3. 阅读顺序误判：极端复杂排版（如杂志广告页）可能出现阅读顺序错误，需人工校验
4. LaTeX公式质量：手写公式或低质量扫描件可能产生LaTeX编译错误

paddleocr pp-structure document-parsing table-extraction formula-recognition latex layout-analysis pdf-to-markdown multi-modal-ocr baidu-paddle enterprise-ocr

PaddleOCR Document Parsing 内容

references文件夹

scripts文件夹

手动下载zip · 18.0 kB

output_schema.mdtext/markdown

请选择文件