使用说明

核心用法

PaddleOCR 文字识别技能通过调用百度开源的 PaddleOCR API 服务，将图片、扫描件、截图或 PDF 中的文字转换为机器可读文本。支持 --file-url 或 --file-path 两种输入方式，输出包含行级文本与可选检测框坐标的结构化 JSON。

基础调用示例：

uv run scripts/ocr_caller.py --file-url "https://example.com/doc.jpg" --pretty

默认行为将结果保存至系统临时目录，可通过 --stdout 直接输出到终端，或用 --output 指定保存路径。提取的 text 字段为纯文本内容，适合下游搜索、存储或进一步处理。

显著优点

CJK 场景优化：对中文、日文、韩文及混合排版的识别准确率显著优于通用 OCR 服务
手写体支持：内置对手写文字的识别能力，覆盖教育、票据等场景
轻量化部署：基于 uv 的 PEP 723 内联依赖管理，无需复杂环境配置
灵活输出：支持仅提取纯文本、保留完整 JSON 或获取检测框坐标（bbox）

潜在缺点与局限

外部依赖：需自行注册 PaddleOCR 官网获取 API_URL 与 Token，存在服务可用性风险
非结构化输出：不保留表格网格、公式排版或阅读顺序，复杂版式需配合 Document Parsing 技能
配额限制：免费/付费 API 均有调用频次上限，大文件（50+ 页 PDF）处理耗时较长
隐私顾虑：图片需上传至第三方服务端处理，敏感文档需谨慎评估

适合人群

需要从截图、手机照片、扫描 PDF 中快速提取文字的日常用户
处理中文合同、发票、笔记等 CJK 文档的办公场景
开发者构建自动化 OCR 流水线，需结构化 JSON 输出对接下游系统

常规风险

| 风险类型 | 说明 |

|---------|------|

| 数据泄露 | 图片上传至 PaddleOCR 官方或自建服务端，含敏感信息的文档应避免使用 |

| 认证失效 | Token 错误或过期将导致 403，需定期更新配置 |

| 配额耗尽 | 高频调用触发 429 限流，影响业务连续性 |

| 识别误差 | 低分辨率、复杂背景、艺术字体可能导致漏识或错识，需人工复核关键内容 |

安全解读

核心用法

PaddleOCR Text Recognition 是一款由百度 PaddlePaddle 官方开源的文字识别技能，专用于从图像、截图、扫描件及 PDF 中提取可机读文本。用户通过简单的命令行调用 uv run scripts/ocr_caller.py，传入文件 URL 或本地路径即可获取识别结果。支持 --pretty 美化输出、--stdout 直接打印、--output 自定义保存路径等灵活模式。

显著优点

1. 识别精度高：基于 PP-OCRv5 模型，对中文、日文、韩文（CJK）及小字体印刷、手写体均有出色表现
2. 多格式支持：PDF、PNG、JPG、BMP、TIFF、WebP 等常见格式全覆盖
3. 输出结构化：可选返回边界框坐标（bbox），便于下游版面分析
4. 官方维护：百度 PaddlePaddle 团队持续迭代，社区活跃，文档完善
5. 安全合规：无硬编码密钥，HTTPS 强制传输，符合 GDPR 数据最小化原则

潜在局限

非本地推理：依赖云端 API，需网络连接及有效 Token，离线场景不可用
复杂版面限制：不保留表格结构、公式排版或阅读顺序，纯文本输出
配额成本：高频率调用可能触发 API 速率限制，大文件（50+页）处理耗时数分钟
配置门槛：首次使用需手动配置 PADDLEOCR_OCR_API_URL 和 PADDLEOCR_ACCESS_TOKEN

适合人群

需要从发票、合同、书籍扫描件中提取纯文本的办公用户
处理多语言文档（尤其中日韩）的开发者与数据工程师
构建 RAG、文档问答等下游 NLP 管道的 AI 应用开发者
对识别精度要求高、愿接受云端 API 成本的企业场景

常规风险

| 风险类型 | 说明 | 缓解措施 |

|---------|------|---------|

| 凭证泄露 | API Token 若暴露在聊天记录或代码中 | 使用主机标准配置（如 settings.json）存储 |

| 数据传输 | 图像上传至 PaddleOCR 云服务 | 确认端点为官方 `*.paddleocr.com`，启用 HTTPS |

| 隐私合规 | 敏感文档（身份证、病历）上传云端 | 评估数据脱敏需求或选用本地部署方案 |

| 服务可用性 | API 配额耗尽或网络中断 | 配置超时参数，实现重试与降级逻辑 |

安全认证报告显示该技能达到 S 级（92分），静态分析、动态行为、依赖审计均通过，建议投入生产使用。

ocr text-extraction image-to-text chinese-ocr paddleocr pdf-parsing document-digitization

PaddleOCR Text Recognition 内容

references文件夹

scripts文件夹

手动下载zip · 12.8 kB

output_schema.mdtext/markdown

请选择文件