核心用法
DocStrange 是 Nanonets 推出的 AI 文档提取 API,核心功能覆盖四大输出格式:Markdown 全文转换、JSON 结构化字段提取、CSV 表格提取、HTML 格式化输出。支持 PDF、图片(JPG/PNG/TIFF)、Word、Excel 等多种输入格式,提供同步(≤5 页)与异步(>5 页)两种处理模式。
典型工作流包括:
1. 文档转 Markdown - 将任意文档转为干净 Markdown,保留层级结构
2. 字段提取 - 通过字段列表或 JSON Schema 提取特定数据,附带 0-100 置信度评分
3. 表格提取 - 将 PDF 表格转为 CSV 格式
4. 高级功能 - 支持边界框坐标、文档层级结构、金融文档优化模式、自定义提取指令
API 设计简洁:统一入口 https://extraction-api.nanonets.com/api/v1/extract/{sync|async},Bearer Token 认证,支持文件上传、URL、base64 三种输入方式。
显著优点
- 多格式覆盖:一站式解决 Markdown、结构化 JSON、CSV 需求,减少工具切换
- 置信度评分:JSON 提取支持字段级置信度(0-100),便于自动化质检和人工复核阈值设定(建议 <80 需人工审核)
- Schema 驱动:支持 JSON Schema 严格类型定义,适合企业级数据规范化流程
- 灵活输入:本地文件、公开 URL、base64 三选一,适配不同场景
- Nanonets 背书:专注文档 AI 多年的成熟厂商,API 稳定性有保障
潜在缺点与局限性
- 页数限制:同步模式硬限制 5 页,大文档必须实现异步轮询逻辑,增加集成复杂度
- 处理延迟:耗时 1-15+ 秒,不满足实时流式场景
- 成本考量:商业 API,高频调用需评估用量成本(文档未公开定价)
- 置信度非万能:手写体、低质量扫描件、复杂版式可能导致高置信度但实际错误,仍需人工抽检
- 中文/多语言支持未明确:文档示例以英文为主,复杂中文排版效果需实测验证
适合人群
- 财务/运营团队:发票、收据、银行对账单自动化处理
- 法务/合规人员:合同关键条款提取与结构化归档
- 开发者:需快速集成文档 OCR 和数据提取能力,不愿自建模型
- 数据录入外包替代:将人工数据录入转为 AI 自动化,降本增效
常规风险
- API 密钥泄露风险:Bearer Token 需妥善保管,避免硬编码提交到代码仓库
- 数据隐私:敏感财务/合同文档上传至第三方云端,需确认合规性(GDPR、等保等)
- 异步任务状态管理:轮询逻辑需设置合理超时和重试,避免无限等待
- 格式兼容性边缘案例:复杂表格嵌套、多栏排版、手写批注可能解析异常,需预留人工兜底流程