使用说明

核心用法

Upstage Document Parse 是一款面向多格式文档的结构化内容提取工具，支持 PDF（同步 20 页/异步 1000 页）、图片（PNG/JPG/TIFF 等）、Office 文档（DOCX/PPTX/XLSX）及韩国 HWP 格式。提供同步与异步两套 API，返回 HTML、Markdown、纯文本三种格式，并附带元素级边界框坐标。

关键参数配置：

mode: standard 适合纯文本，enhanced 优化复杂表格与图表识别，auto 自动选择
ocr: auto 仅对图片启用，force 强制 OCR（适合扫描件）
output_formats: 支持多格式组合返回
base64_encoding: 可将表格、图片转为 base64 嵌入
chart_recognition / merge_multipage_tables: Beta 功能，跨页表格合并限 20 页内

异步工作流： 提交后获取 request_id，轮询状态至 completed，结果分批次存储 30 天，下载 URL 15 分钟有效需动态刷新。

显著优点

1. 多模态提取能力：除文本外，精准识别表格结构、图表转表、公式、页眉页脚等 14 类元素，输出带坐标的结构化数据
2. 韩国市场深度适配：原生支持 HWP 格式（韩国政府/企业通用），对东亚语言 OCR 优化
3. 弹性架构：同步 API 3 秒级响应，异步支撑千页大文档，批处理 10 页/批次降低超时风险
4. 生态集成：提供官方 LangChain Loader，Python 调用简洁

潜在局限

成本不透明：文档未提及定价，企业级使用需自行询价
功能边界：merge_multipage_tables 与增强模式同时启用时限制 20 页，超页需手动拼接
超时约束：同步 API 5 分钟硬限制，超大文档必须走异步流程
区域覆盖：Upstage 为韩国公司，API 服务端点位于海外，国内访问需评估延迟

适合人群

需批量处理 PDF/扫描件的知识库建设者
金融、法律领域提取表格、发票结构化数据的开发者
韩国市场业务需处理 HWP 格式的企业用户
构建 RAG 流程需高质量 Markdown 清洗的 AI 应用团队

常规风险

| 风险类型 | 说明 |

|---------|------|

| 数据隐私 | 文档上传至 Upstage 云端处理，敏感文件需评估合规性 |

| API 稳定性 | 异步结果 30 天过期，长期归档需本地备份 |

| 密钥管理 | 依赖 `UPSTAGE_API_KEY`，泄露可能导致额度盗用 |

| 格式兼容性 | 复杂版式 PDF（多栏、图文混排）可能出现错位，建议 enhanced 模式 |

整体评估：功能完备度达企业级，适合对结构化精度要求高的场景，但需预先确认商务条款与数据驻留政策。

ocr pdf-parsing document-extraction table-recognition korean-hwp async-processing langchain markdown-export

upstage-document-parse 内容

手动下载zip · 2.8 kB

SKILL.mdtext/markdown

请选择文件