使用说明

核心用法

DocStrange 是 Nanonets 提供的文档提取 API，专注于将 PDF 和图片转换为结构化数据。支持三种输出格式：Markdown（保留文档结构）、JSON（字段级提取）和 CSV（表格数据）。API 采用 REST 设计，提供同步（≤5页）和异步（大文档）两种调用模式。

主要功能：

OCR 文字识别：处理扫描件、图片中的文字
智能字段提取：通过字段列表或 JSON Schema 精确提取发票号、金额、日期等
表格识别：将表格转换为 CSV 或结构化 JSON
置信度评分：每个字段 0-100 分，便于人工复核低置信度结果
布局分析：可选返回边界框坐标，支持版面还原

调用示例：

curl -X POST "https://extraction-api.nanonets.com/api/v1/extract/sync" \
  -H "Authorization: Bearer $DOCSTRANGE_API_KEY" \
  -F "file=@invoice.pdf" \
  -F "output_format=json" \
  -F 'json_options=["invoice_number", "total_amount"]'

显著优点

1. 多格式输出灵活：同一接口支持 Markdown、JSON、CSV，适配不同下游场景
2. Schema 驱动提取：支持 JSON Schema 约束，确保返回数据类型严格可控
3. 置信度透明化：每个字段独立评分，便于构建自动化+人工复核的混合工作流
4. 异步处理大文档：>5页文档自动切换异步模式，避免超时
5. 自定义指令：可通过 prompt 引导提取重点，如"仅关注财务数据"

潜在局限

外部服务依赖：文档需上传至 Nanonets 服务器处理，存在数据出境风险
无本地部署选项：无法在内网或离线环境使用
格式支持边界：明确不支持视频/音频转录，非文档类图片效果未保证
同步限制：5页以上强制异步，实时性场景需设计轮询逻辑
成本不透明：文档未提及定价模式，实际使用需关注用量计费

适合人群

财务/会计团队：批量处理发票、收据、银行对账单
法务合规：合同关键条款提取与归档
数据录入外包替代：替代人工表单录入，降低运营成本
开发者构建 RPA：需要结构化文档数据的自动化流程

常规风险

| 风险类型 | 说明 | 缓解建议 |

|---------|------|---------|

| **数据隐私** | 敏感文档上传至第三方服务器 | 正式使用前审查隐私政策；避免上传 SSN、医疗记录等高敏感数据；先用非敏感样本测试 |

| **API 密钥泄露** | 密钥硬编码或误提交至仓库 | 强制使用环境变量；配置文件设 600 权限；定期轮换密钥（90天周期） |

| **服务可用性** | 依赖 Nanonets 基础设施 | 设计降级方案；监控 API 状态；关键流程保留人工兜底 |

| **提取准确性** | 低置信度字段可能错误 | 设置阈值（如<80分触发人工审核）；建立质检抽样机制 |

| **合规风险** | 跨境数据传输、行业合规要求 | 确认服务商 SOC2/ISO 认证；评估 GDPR/等保合规性 |

> 建议首次使用前： 完整阅读 https://docstrange.nanonets.com/docs 中的隐私政策与数据留存条款，确认数据删除机制符合贵司安全要求。

安全解读

核心用法

DocStrange 是 Nanonets 提供的文档智能提取 API，核心能力是将非结构化文档（PDF、图片、扫描件）转化为可编程的结构化数据。支持三种输出格式：

Markdown: 保留文档层级结构的纯文本输出
JSON: 按字段或 JSON Schema 提取键值对，支持嵌套数据结构
CSV: 表格数据的标准化输出

基础调用采用同步端点 /extract/sync，5 页以内文档即时返回；大文档使用异步端点 /extract/async 配合轮询获取结果。

关键特性

| 特性 | 说明 |

|------|------|

| 置信度评分 | 每个提取字段附带 0-100 分置信度，低于 80 分建议人工复核 |

| JSON Schema 支持 | 可通过标准 JSON Schema 严格约束输出结构，适合复杂发票、合同等场景 |

| 自定义指令 | 支持通过 prompt 引导提取焦点，如"仅提取财务数据，忽略页眉" |

| 元数据选项 | 可选返回边界框坐标（bounding boxes）用于版面分析 |

典型工作流

1. 小文档快速处理：同步调用 → 即时获取 Markdown/JSON
2. 结构化数据提取：上传发票 → 指定 JSON Schema → 获取带置信度的字段值
3. 表格数字化：PDF 表格 → CSV 输出 → 直接导入数据库

显著优点

成熟商业服务：Nanonets 为 Y Combinator 校友企业（2017 年成立），获 Accel 等知名风投投资，服务稳定性有保障
多格式灵活输出：同一文档可一次请求多种格式（markdown,json），减少重复上传
字段级置信度：相比纯 OCR 文本输出，结构化 JSON 的置信度评分便于构建自动化审核流程
金融场景优化：内置 financial-docs 模式，针对发票、银行对账单等场景优化数字和表格识别

潜在缺点与局限性

数据外发依赖：所有文档必须上传至 Nanonets 云服务器处理，无法本地部署，对敏感文档存在合规顾虑
页数限制：同步端点限制 5 页以内，大文档需异步轮询，增加集成复杂度
成本不透明：文档未提及定价模式，商业 API 可能存在调用量或页数计费
中文支持未明确：示例均为英文场景，中文文档的识别准确率需实际验证

适合人群

财务/运营自动化团队：需要批量处理发票、收据、银行对账单并导入 ERP/财务系统
RPA 开发者：构建文档自动化工作流，需要结构化数据输出而非原始 OCR 文本
法务/合规团队：合同文本提取和关键条款结构化归档
不适合：对数据驻留有严格要求的企业（医疗、政府涉密文档）、需要离线处理的场景

常规风险

| 风险类别 | 说明 | 缓解措施 |

|----------|------|----------|

| 数据隐私 | 文档上传至第三方云服务 | 处理前审查 Nanonets 隐私政策；敏感文档先脱敏测试 |

| API 密钥泄露 | 密钥硬编码或配置泄露 | 强制使用环境变量；配置文件设 600 权限；90 天轮换 |

| 提取错误 | 低置信度字段未被人工复核 | 设置 80 分阈值自动标记，关键字段强制人工确认 |

| 服务可用性 | 依赖外部 API 和网络 | 实现异步端点的超时重试；保留原始文档备份 |

| 合规认证 | 文档未明确 SOC 2、GDPR 等认证状态 | 正式使用前向 Nanonets 索取合规证明 |

综合来看，DocStrange 是功能完备的商业文档 AI 服务，适合对识别准确率有要求、可接受云处理的自动化场景，但敏感数据场景需谨慎评估合规性。

ocr document-processing api pdf invoice-extraction data-extraction nanonets structured-data markdown json csv

Nanonets OCR 内容

手动下载zip · 4.0 kB

package.jsonapplication/json

请选择文件