核心用法
Upstage Document Parse 是一款面向多格式文档的结构化内容提取工具,支持 PDF(同步 20 页/异步 1000 页)、图片(PNG/JPG/TIFF 等)、Office 文档(DOCX/PPTX/XLSX)及韩国 HWP 格式。提供同步与异步两套 API,返回 HTML、Markdown、纯文本三种格式,并附带元素级边界框坐标。
关键参数配置:
mode:standard适合纯文本,enhanced优化复杂表格与图表识别,auto自动选择ocr:auto仅对图片启用,force强制 OCR(适合扫描件)output_formats: 支持多格式组合返回base64_encoding: 可将表格、图片转为 base64 嵌入chart_recognition/merge_multipage_tables: Beta 功能,跨页表格合并限 20 页内
异步工作流: 提交后获取 request_id,轮询状态至 completed,结果分批次存储 30 天,下载 URL 15 分钟有效需动态刷新。
显著优点
1. 多模态提取能力:除文本外,精准识别表格结构、图表转表、公式、页眉页脚等 14 类元素,输出带坐标的结构化数据
2. 韩国市场深度适配:原生支持 HWP 格式(韩国政府/企业通用),对东亚语言 OCR 优化
3. 弹性架构:同步 API 3 秒级响应,异步支撑千页大文档,批处理 10 页/批次降低超时风险
4. 生态集成:提供官方 LangChain Loader,Python 调用简洁
潜在局限
- 成本不透明:文档未提及定价,企业级使用需自行询价
- 功能边界:
merge_multipage_tables与增强模式同时启用时限制 20 页,超页需手动拼接 - 超时约束:同步 API 5 分钟硬限制,超大文档必须走异步流程
- 区域覆盖:Upstage 为韩国公司,API 服务端点位于海外,国内访问需评估延迟
适合人群
- 需批量处理 PDF/扫描件的知识库建设者
- 金融、法律领域提取表格、发票结构化数据的开发者
- 韩国市场业务需处理 HWP 格式的企业用户
- 构建 RAG 流程需高质量 Markdown 清洗的 AI 应用团队
常规风险
| 风险类型 | 说明 |
|---------|------|
| 数据隐私 | 文档上传至 Upstage 云端处理,敏感文件需评估合规性 |
| API 稳定性 | 异步结果 30 天过期,长期归档需本地备份 |
| 密钥管理 | 依赖 `UPSTAGE_API_KEY`,泄露可能导致额度盗用 |
| 格式兼容性 | 复杂版式 PDF(多栏、图文混排)可能出现错位,建议 enhanced 模式 |
整体评估:功能完备度达企业级,适合对结构化精度要求高的场景,但需预先确认商务条款与数据驻留政策。