Nanonets OCR

📄 智能文档提取,一键结构化

Nanonets 出品的文档提取 API,支持 PDF/图片 OCR 转 Markdown、JSON 或 CSV,带置信度评分,适合发票、收据自动化处理。

收藏
11.4k
安装
3.9k
版本
1.0.2
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

DocStrange 是 Nanonets 提供的文档提取 API,专注于将 PDF 和图片转换为结构化数据。支持三种输出格式:Markdown(保留文档结构)、JSON(字段级提取)和 CSV(表格数据)。API 采用 REST 设计,提供同步(≤5页)和异步(大文档)两种调用模式。

主要功能:

  • OCR 文字识别:处理扫描件、图片中的文字
  • 智能字段提取:通过字段列表或 JSON Schema 精确提取发票号、金额、日期等
  • 表格识别:将表格转换为 CSV 或结构化 JSON
  • 置信度评分:每个字段 0-100 分,便于人工复核低置信度结果
  • 布局分析:可选返回边界框坐标,支持版面还原

调用示例:

curl -X POST "https://extraction-api.nanonets.com/api/v1/extract/sync" \
  -H "Authorization: Bearer $DOCSTRANGE_API_KEY" \
  -F "file=@invoice.pdf" \
  -F "output_format=json" \
  -F 'json_options=["invoice_number", "total_amount"]'

显著优点

1. 多格式输出灵活:同一接口支持 Markdown、JSON、CSV,适配不同下游场景
2. Schema 驱动提取:支持 JSON Schema 约束,确保返回数据类型严格可控

3. 置信度透明化:每个字段独立评分,便于构建自动化+人工复核的混合工作流

4. 异步处理大文档:>5页文档自动切换异步模式,避免超时

5. 自定义指令:可通过 prompt 引导提取重点,如"仅关注财务数据"

潜在局限

  • 外部服务依赖:文档需上传至 Nanonets 服务器处理,存在数据出境风险
  • 无本地部署选项:无法在内网或离线环境使用
  • 格式支持边界:明确不支持视频/音频转录,非文档类图片效果未保证
  • 同步限制:5页以上强制异步,实时性场景需设计轮询逻辑
  • 成本不透明:文档未提及定价模式,实际使用需关注用量计费

适合人群

  • 财务/会计团队:批量处理发票、收据、银行对账单
  • 法务合规:合同关键条款提取与归档
  • 数据录入外包替代:替代人工表单录入,降低运营成本
  • 开发者构建 RPA:需要结构化文档数据的自动化流程

常规风险

| 风险类型 | 说明 | 缓解建议 |
|---------|------|---------|
| **数据隐私** | 敏感文档上传至第三方服务器 | 正式使用前审查隐私政策;避免上传 SSN、医疗记录等高敏感数据;先用非敏感样本测试 |
| **API 密钥泄露** | 密钥硬编码或误提交至仓库 | 强制使用环境变量;配置文件设 600 权限;定期轮换密钥(90天周期) |
| **服务可用性** | 依赖 Nanonets 基础设施 | 设计降级方案;监控 API 状态;关键流程保留人工兜底 |
| **提取准确性** | 低置信度字段可能错误 | 设置阈值(如<80分触发人工审核);建立质检抽样机制 |
| **合规风险** | 跨境数据传输、行业合规要求 | 确认服务商 SOC2/ISO 认证;评估 GDPR/等保合规性 |

> 建议首次使用前: 完整阅读 https://docstrange.nanonets.com/docs 中的隐私政策与数据留存条款,确认数据删除机制符合贵司安全要求。

Nanonets OCR 内容

手动下载zip · 4.0 kB
package.jsonapplication/json
请选择文件