核心用法
PaddleOCR Text Recognition 是一款调用百度飞桨PaddleOCR云端API的文字识别技能,支持从图片、截图、扫描件及PDF中提取文字内容,并返回检测框坐标信息。使用时需通过命令行执行 python scripts/ocr_caller.py,支持 --file-url 或 --file-path 参数指定输入源,输出可选择保存为JSON文件或直接打印到标准输出。
显著优点
- 高精度识别:基于PaddleOCR PP-OCRv5模型,中文识别准确率高
- 坐标定位:返回每行文字的边界框(bbox)位置,便于后续版面分析
- 双语触发:支持中英文关键词路由,如"OCR"、"文字识别"、"截图识字"等
- 灵活输出:支持 pretty 格式化、stdout 直出或文件保存多种模式
潜在局限
- API依赖:必须配置
PADDLEOCR_OCR_API_URL和PADDLEOCR_ACCESS_TOKEN,无法离线使用 - 配额限制:存在API调用频率和每日额度限制,超限需等待或升级
- 格式局限:不适用于纯文本文件、代码文件、Markdown文档的直接读取
- 无表格恢复:仅返回行/框级文字,不恢复表格网格结构或阅读顺序
适合人群
- 需要从截图、照片、扫描件中提取文字内容的办公人员
- 开发者集成OCR能力至自动化工作流
- 对中文识别准确率有较高要求的用户
常规风险
- 凭证泄露风险:API Token需妥善保管,避免在聊天中明文传输
- 网络依赖:API调用失败时无降级方案,任务将中断
- 隐私合规:上传敏感文档至第三方云端API需评估数据安全策略
- 成本不可控:高频调用可能产生意外费用,建议监控用量