核心用法
DocStrange 是 Nanonets 提供的文档提取 API,专注于将 PDF 和图片转换为结构化数据。支持三种输出格式:Markdown(保留文档结构)、JSON(字段级提取)和 CSV(表格数据)。API 采用 REST 设计,提供同步(≤5页)和异步(大文档)两种调用模式。
主要功能:
- OCR 文字识别:处理扫描件、图片中的文字
- 智能字段提取:通过字段列表或 JSON Schema 精确提取发票号、金额、日期等
- 表格识别:将表格转换为 CSV 或结构化 JSON
- 置信度评分:每个字段 0-100 分,便于人工复核低置信度结果
- 布局分析:可选返回边界框坐标,支持版面还原
调用示例:
curl -X POST "https://extraction-api.nanonets.com/api/v1/extract/sync" \ -H "Authorization: Bearer $DOCSTRANGE_API_KEY" \ -F "file=@invoice.pdf" \ -F "output_format=json" \ -F 'json_options=["invoice_number", "total_amount"]'
显著优点
1. 多格式输出灵活:同一接口支持 Markdown、JSON、CSV,适配不同下游场景
2. Schema 驱动提取:支持 JSON Schema 约束,确保返回数据类型严格可控
3. 置信度透明化:每个字段独立评分,便于构建自动化+人工复核的混合工作流
4. 异步处理大文档:>5页文档自动切换异步模式,避免超时
5. 自定义指令:可通过 prompt 引导提取重点,如"仅关注财务数据"
潜在局限
- 外部服务依赖:文档需上传至 Nanonets 服务器处理,存在数据出境风险
- 无本地部署选项:无法在内网或离线环境使用
- 格式支持边界:明确不支持视频/音频转录,非文档类图片效果未保证
- 同步限制:5页以上强制异步,实时性场景需设计轮询逻辑
- 成本不透明:文档未提及定价模式,实际使用需关注用量计费
适合人群
- 财务/会计团队:批量处理发票、收据、银行对账单
- 法务合规:合同关键条款提取与归档
- 数据录入外包替代:替代人工表单录入,降低运营成本
- 开发者构建 RPA:需要结构化文档数据的自动化流程
常规风险
| 风险类型 | 说明 | 缓解建议 |
|---------|------|---------|
| **数据隐私** | 敏感文档上传至第三方服务器 | 正式使用前审查隐私政策;避免上传 SSN、医疗记录等高敏感数据;先用非敏感样本测试 |
| **API 密钥泄露** | 密钥硬编码或误提交至仓库 | 强制使用环境变量;配置文件设 600 权限;定期轮换密钥(90天周期) |
| **服务可用性** | 依赖 Nanonets 基础设施 | 设计降级方案;监控 API 状态;关键流程保留人工兜底 |
| **提取准确性** | 低置信度字段可能错误 | 设置阈值(如<80分触发人工审核);建立质检抽样机制 |
| **合规风险** | 跨境数据传输、行业合规要求 | 确认服务商 SOC2/ISO 认证;评估 GDPR/等保合规性 |
> 建议首次使用前: 完整阅读 https://docstrange.nanonets.com/docs 中的隐私政策与数据留存条款,确认数据删除机制符合贵司安全要求。