核心用法
PaddleOCR 文字识别技能通过调用百度开源的 PaddleOCR API 服务,将图片、扫描件、截图或 PDF 中的文字转换为机器可读文本。支持 --file-url 或 --file-path 两种输入方式,输出包含行级文本与可选检测框坐标的结构化 JSON。
基础调用示例:
uv run scripts/ocr_caller.py --file-url "https://example.com/doc.jpg" --pretty
默认行为将结果保存至系统临时目录,可通过 --stdout 直接输出到终端,或用 --output 指定保存路径。提取的 text 字段为纯文本内容,适合下游搜索、存储或进一步处理。
显著优点
- CJK 场景优化:对中文、日文、韩文及混合排版的识别准确率显著优于通用 OCR 服务
- 手写体支持:内置对手写文字的识别能力,覆盖教育、票据等场景
- 轻量化部署:基于 uv 的 PEP 723 内联依赖管理,无需复杂环境配置
- 灵活输出:支持仅提取纯文本、保留完整 JSON 或获取检测框坐标(bbox)
潜在缺点与局限
- 外部依赖:需自行注册 PaddleOCR 官网获取
API_URL与Token,存在服务可用性风险 - 非结构化输出:不保留表格网格、公式排版或阅读顺序,复杂版式需配合 Document Parsing 技能
- 配额限制:免费/付费 API 均有调用频次上限,大文件(50+ 页 PDF)处理耗时较长
- 隐私顾虑:图片需上传至第三方服务端处理,敏感文档需谨慎评估
适合人群
- 需要从截图、手机照片、扫描 PDF 中快速提取文字的日常用户
- 处理中文合同、发票、笔记等 CJK 文档的办公场景
- 开发者构建自动化 OCR 流水线,需结构化 JSON 输出对接下游系统
常规风险
| 风险类型 | 说明 |
|---------|------|
| 数据泄露 | 图片上传至 PaddleOCR 官方或自建服务端,含敏感信息的文档应避免使用 |
| 认证失效 | Token 错误或过期将导致 403,需定期更新配置 |
| 配额耗尽 | 高频调用触发 429 限流,影响业务连续性 |
| 识别误差 | 低分辨率、复杂背景、艺术字体可能导致漏识或错识,需人工复核关键内容 |