upstage-document-parse

📑 AI 文档解析,一键提取结构化数据

document-processing榜 #7

Upstage 文档解析 API,支持 PDF、图片等 11 种格式,提取结构化内容与布局坐标,韩国独角兽企业出品

收藏
10.7k
安装
2.6k
版本
1.0.2
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

Upstage Document Parse 是一款面向多格式文档的结构化内容提取工具,支持 PDF(同步 20 页/异步 1000 页)、图片(PNG/JPG/TIFF 等)、Office 文档(DOCX/PPTX/XLSX)及韩国 HWP 格式。提供同步与异步两套 API,返回 HTML、Markdown、纯文本三种格式,并附带元素级边界框坐标。

关键参数配置:

  • mode: standard 适合纯文本,enhanced 优化复杂表格与图表识别,auto 自动选择
  • ocr: auto 仅对图片启用,force 强制 OCR(适合扫描件)
  • output_formats: 支持多格式组合返回
  • base64_encoding: 可将表格、图片转为 base64 嵌入
  • chart_recognition / merge_multipage_tables: Beta 功能,跨页表格合并限 20 页内

异步工作流: 提交后获取 request_id,轮询状态至 completed,结果分批次存储 30 天,下载 URL 15 分钟有效需动态刷新。

显著优点

1. 多模态提取能力:除文本外,精准识别表格结构、图表转表、公式、页眉页脚等 14 类元素,输出带坐标的结构化数据
2. 韩国市场深度适配:原生支持 HWP 格式(韩国政府/企业通用),对东亚语言 OCR 优化

3. 弹性架构:同步 API 3 秒级响应,异步支撑千页大文档,批处理 10 页/批次降低超时风险

4. 生态集成:提供官方 LangChain Loader,Python 调用简洁

潜在局限

  • 成本不透明:文档未提及定价,企业级使用需自行询价
  • 功能边界merge_multipage_tables 与增强模式同时启用时限制 20 页,超页需手动拼接
  • 超时约束:同步 API 5 分钟硬限制,超大文档必须走异步流程
  • 区域覆盖:Upstage 为韩国公司,API 服务端点位于海外,国内访问需评估延迟

适合人群

  • 需批量处理 PDF/扫描件的知识库建设者
  • 金融、法律领域提取表格、发票结构化数据的开发者
  • 韩国市场业务需处理 HWP 格式的企业用户
  • 构建 RAG 流程需高质量 Markdown 清洗的 AI 应用团队

常规风险

| 风险类型 | 说明 |
|---------|------|
| 数据隐私 | 文档上传至 Upstage 云端处理,敏感文件需评估合规性 |
| API 稳定性 | 异步结果 30 天过期,长期归档需本地备份 |
| 密钥管理 | 依赖 `UPSTAGE_API_KEY`,泄露可能导致额度盗用 |
| 格式兼容性 | 复杂版式 PDF(多栏、图文混排)可能出现错位,建议 enhanced 模式 |

整体评估:功能完备度达企业级,适合对结构化精度要求高的场景,但需预先确认商务条款与数据驻留政策。

upstage-document-parse 内容

手动下载zip · 2.8 kB
SKILL.mdtext/markdown
请选择文件