Nanonets OCR

📄 AI 文档提取,一键转 Markdown/JSON

Nanonets 出品的 AI 文档提取工具,支持 PDF、图片转 Markdown/JSON/CSV,带置信度评分,适合发票、合同、表格结构化提取

收藏
15.6k
安装
3.9k
版本
1.0.0
CLS 安全性认证2026-05-14
点击查看完整报告 >

使用说明

核心用法

DocStrange 是 Nanonets 推出的 AI 文档提取 API,核心功能覆盖四大输出格式:Markdown 全文转换JSON 结构化字段提取CSV 表格提取HTML 格式化输出。支持 PDF、图片(JPG/PNG/TIFF)、Word、Excel 等多种输入格式,提供同步(≤5 页)与异步(>5 页)两种处理模式。

典型工作流包括:
1. 文档转 Markdown - 将任意文档转为干净 Markdown,保留层级结构

2. 字段提取 - 通过字段列表或 JSON Schema 提取特定数据,附带 0-100 置信度评分

3. 表格提取 - 将 PDF 表格转为 CSV 格式

4. 高级功能 - 支持边界框坐标、文档层级结构、金融文档优化模式、自定义提取指令

API 设计简洁:统一入口 https://extraction-api.nanonets.com/api/v1/extract/{sync|async},Bearer Token 认证,支持文件上传、URL、base64 三种输入方式。

显著优点

  • 多格式覆盖:一站式解决 Markdown、结构化 JSON、CSV 需求,减少工具切换
  • 置信度评分:JSON 提取支持字段级置信度(0-100),便于自动化质检和人工复核阈值设定(建议 <80 需人工审核)
  • Schema 驱动:支持 JSON Schema 严格类型定义,适合企业级数据规范化流程
  • 灵活输入:本地文件、公开 URL、base64 三选一,适配不同场景
  • Nanonets 背书:专注文档 AI 多年的成熟厂商,API 稳定性有保障

潜在缺点与局限性

  • 页数限制:同步模式硬限制 5 页,大文档必须实现异步轮询逻辑,增加集成复杂度
  • 处理延迟:耗时 1-15+ 秒,不满足实时流式场景
  • 成本考量:商业 API,高频调用需评估用量成本(文档未公开定价)
  • 置信度非万能:手写体、低质量扫描件、复杂版式可能导致高置信度但实际错误,仍需人工抽检
  • 中文/多语言支持未明确:文档示例以英文为主,复杂中文排版效果需实测验证

适合人群

  • 财务/运营团队:发票、收据、银行对账单自动化处理
  • 法务/合规人员:合同关键条款提取与结构化归档
  • 开发者:需快速集成文档 OCR 和数据提取能力,不愿自建模型
  • 数据录入外包替代:将人工数据录入转为 AI 自动化,降本增效

常规风险

  • API 密钥泄露风险:Bearer Token 需妥善保管,避免硬编码提交到代码仓库
  • 数据隐私:敏感财务/合同文档上传至第三方云端,需确认合规性(GDPR、等保等)
  • 异步任务状态管理:轮询逻辑需设置合理超时和重试,避免无限等待
  • 格式兼容性边缘案例:复杂表格嵌套、多栏排版、手写批注可能解析异常,需预留人工兜底流程

安全解读

核心功能

DocStrange 是 Nanonets 推出的 AI 文档提取服务,通过 REST API 将非结构化文档转换为结构化数据。核心能力包括:Markdown 转换(PDF/Word/Excel/图片转为干净 Markdown)、JSON 字段提取(支持字段列表或 JSON Schema,带 0-100 置信度评分)、CSV 表格提取(自动识别表格结构)、HTML 格式化输出、图像 OCR(扫描件/照片文字识别)。支持同步(≤5 页)和异步(>5 页)两种处理模式。

显著优点

  • 多格式支持:PDF、JPG、PNG、TIFF、Word、Excel 全覆盖
  • 高可信度输出:置信度评分帮助识别需人工复核的字段
  • 灵活提取模式:简单字段列表或严格 JSON Schema 均可
  • 商业级可靠性:Nanonets 为知名 AI/OCR SaaS 厂商,API 稳定性有保障
  • 高级功能丰富:边界框定位、层级结构输出、金融文档优化模式、自定义提取指令、多格式并行输出

潜在局限

  • 页数限制:同步模式仅支持 5 页以内,大文档需异步轮询
  • 网络依赖:文档需上传至 Nanonets 服务器处理,存在数据出境
  • 成本门槛:商业 API 服务,高频调用需付费
  • 处理延迟:非实时,通常 1-15 秒,大文档更长
  • 非通用图像:专注文档,不适合照片分析、 artwork 等非文档图像

适合人群

  • 财务/会计团队:批量处理发票、收据、银行对账单
  • 法务/合规人员:合同关键条款提取、文档数字化归档
  • 数据录入岗位:表单自动识别、表格结构提取
  • 开发者:构建文档处理工作流、RPA 自动化
  • 内容运营:PDF 转 Markdown 用于知识库建设

常规风险

  • API Key 泄露:需妥善保管,避免硬编码或共享环境暴露
  • 敏感数据出境:文档上传至第三方服务器,需确认符合企业数据政策
  • 置信度误信:低置信度字段(<80)需人工复核,不可盲目信任
  • 服务可用性:依赖 Nanonets 服务状态,建议实现重试和降级机制
  • 隐私合规:处理含 PII 的文档前,建议查阅 Nanonets 隐私政策

Nanonets OCR 内容

手动下载zip · 5.0 kB
package.jsonapplication/json
请选择文件