Nanonets OCR

📄 智能文档提取,一键结构化

Nanonets 出品的文档提取 API,支持 PDF/图片 OCR 转 Markdown、JSON 或 CSV,带置信度评分,适合发票、收据自动化处理。

收藏
11.4k
安装
3.9k
版本
1.0.2
CLS 安全性认证2026-05-17
点击查看完整报告 >

使用说明

核心用法

DocStrange 是 Nanonets 提供的文档提取 API,专注于将 PDF 和图片转换为结构化数据。支持三种输出格式:Markdown(保留文档结构)、JSON(字段级提取)和 CSV(表格数据)。API 采用 REST 设计,提供同步(≤5页)和异步(大文档)两种调用模式。

主要功能:

  • OCR 文字识别:处理扫描件、图片中的文字
  • 智能字段提取:通过字段列表或 JSON Schema 精确提取发票号、金额、日期等
  • 表格识别:将表格转换为 CSV 或结构化 JSON
  • 置信度评分:每个字段 0-100 分,便于人工复核低置信度结果
  • 布局分析:可选返回边界框坐标,支持版面还原

调用示例:

curl -X POST "https://extraction-api.nanonets.com/api/v1/extract/sync" \
  -H "Authorization: Bearer $DOCSTRANGE_API_KEY" \
  -F "file=@invoice.pdf" \
  -F "output_format=json" \
  -F 'json_options=["invoice_number", "total_amount"]'

显著优点

1. 多格式输出灵活:同一接口支持 Markdown、JSON、CSV,适配不同下游场景
2. Schema 驱动提取:支持 JSON Schema 约束,确保返回数据类型严格可控

3. 置信度透明化:每个字段独立评分,便于构建自动化+人工复核的混合工作流

4. 异步处理大文档:>5页文档自动切换异步模式,避免超时

5. 自定义指令:可通过 prompt 引导提取重点,如"仅关注财务数据"

潜在局限

  • 外部服务依赖:文档需上传至 Nanonets 服务器处理,存在数据出境风险
  • 无本地部署选项:无法在内网或离线环境使用
  • 格式支持边界:明确不支持视频/音频转录,非文档类图片效果未保证
  • 同步限制:5页以上强制异步,实时性场景需设计轮询逻辑
  • 成本不透明:文档未提及定价模式,实际使用需关注用量计费

适合人群

  • 财务/会计团队:批量处理发票、收据、银行对账单
  • 法务合规:合同关键条款提取与归档
  • 数据录入外包替代:替代人工表单录入,降低运营成本
  • 开发者构建 RPA:需要结构化文档数据的自动化流程

常规风险

| 风险类型 | 说明 | 缓解建议 |
|---------|------|---------|
| **数据隐私** | 敏感文档上传至第三方服务器 | 正式使用前审查隐私政策;避免上传 SSN、医疗记录等高敏感数据;先用非敏感样本测试 |
| **API 密钥泄露** | 密钥硬编码或误提交至仓库 | 强制使用环境变量;配置文件设 600 权限;定期轮换密钥(90天周期) |
| **服务可用性** | 依赖 Nanonets 基础设施 | 设计降级方案;监控 API 状态;关键流程保留人工兜底 |
| **提取准确性** | 低置信度字段可能错误 | 设置阈值(如<80分触发人工审核);建立质检抽样机制 |
| **合规风险** | 跨境数据传输、行业合规要求 | 确认服务商 SOC2/ISO 认证;评估 GDPR/等保合规性 |

> 建议首次使用前: 完整阅读 https://docstrange.nanonets.com/docs 中的隐私政策与数据留存条款,确认数据删除机制符合贵司安全要求。

安全解读

核心用法

DocStrange 是 Nanonets 提供的文档智能提取 API,核心能力是将非结构化文档(PDF、图片、扫描件)转化为可编程的结构化数据。支持三种输出格式:

  • Markdown: 保留文档层级结构的纯文本输出
  • JSON: 按字段或 JSON Schema 提取键值对,支持嵌套数据结构
  • CSV: 表格数据的标准化输出

基础调用采用同步端点 /extract/sync,5 页以内文档即时返回;大文档使用异步端点 /extract/async 配合轮询获取结果。

关键特性

| 特性 | 说明 |
|------|------|
| 置信度评分 | 每个提取字段附带 0-100 分置信度,低于 80 分建议人工复核 |
| JSON Schema 支持 | 可通过标准 JSON Schema 严格约束输出结构,适合复杂发票、合同等场景 |
| 自定义指令 | 支持通过 prompt 引导提取焦点,如"仅提取财务数据,忽略页眉" |
| 元数据选项 | 可选返回边界框坐标(bounding boxes)用于版面分析 |

典型工作流

1. 小文档快速处理:同步调用 → 即时获取 Markdown/JSON
2. 结构化数据提取:上传发票 → 指定 JSON Schema → 获取带置信度的字段值

3. 表格数字化:PDF 表格 → CSV 输出 → 直接导入数据库

显著优点

  • 成熟商业服务:Nanonets 为 Y Combinator 校友企业(2017 年成立),获 Accel 等知名风投投资,服务稳定性有保障
  • 多格式灵活输出:同一文档可一次请求多种格式(markdown,json),减少重复上传
  • 字段级置信度:相比纯 OCR 文本输出,结构化 JSON 的置信度评分便于构建自动化审核流程
  • 金融场景优化:内置 financial-docs 模式,针对发票、银行对账单等场景优化数字和表格识别

潜在缺点与局限性

  • 数据外发依赖:所有文档必须上传至 Nanonets 云服务器处理,无法本地部署,对敏感文档存在合规顾虑
  • 页数限制:同步端点限制 5 页以内,大文档需异步轮询,增加集成复杂度
  • 成本不透明:文档未提及定价模式,商业 API 可能存在调用量或页数计费
  • 中文支持未明确:示例均为英文场景,中文文档的识别准确率需实际验证

适合人群

  • 财务/运营自动化团队:需要批量处理发票、收据、银行对账单并导入 ERP/财务系统
  • RPA 开发者:构建文档自动化工作流,需要结构化数据输出而非原始 OCR 文本
  • 法务/合规团队:合同文本提取和关键条款结构化归档
  • 不适合:对数据驻留有严格要求的企业(医疗、政府涉密文档)、需要离线处理的场景

常规风险

| 风险类别 | 说明 | 缓解措施 |
|----------|------|----------|
| 数据隐私 | 文档上传至第三方云服务 | 处理前审查 Nanonets 隐私政策;敏感文档先脱敏测试 |
| API 密钥泄露 | 密钥硬编码或配置泄露 | 强制使用环境变量;配置文件设 600 权限;90 天轮换 |
| 提取错误 | 低置信度字段未被人工复核 | 设置 80 分阈值自动标记,关键字段强制人工确认 |
| 服务可用性 | 依赖外部 API 和网络 | 实现异步端点的超时重试;保留原始文档备份 |
| 合规认证 | 文档未明确 SOC 2、GDPR 等认证状态 | 正式使用前向 Nanonets 索取合规证明 |

综合来看,DocStrange 是功能完备的商业文档 AI 服务,适合对识别准确率有要求、可接受云处理的自动化场景,但敏感数据场景需谨慎评估合规性。

Nanonets OCR 内容

手动下载zip · 4.0 kB
package.jsonapplication/json
请选择文件