使用说明

核心用法

PaddleOCR Text Recognition 是一款调用百度飞桨PaddleOCR云端API的文字识别技能，支持从图片、截图、扫描件及PDF中提取文字内容，并返回检测框坐标信息。使用时需通过命令行执行 python scripts/ocr_caller.py，支持 --file-url 或 --file-path 参数指定输入源，输出可选择保存为JSON文件或直接打印到标准输出。

显著优点

高精度识别：基于PaddleOCR PP-OCRv5模型，中文识别准确率高
坐标定位：返回每行文字的边界框(bbox)位置，便于后续版面分析
双语触发：支持中英文关键词路由，如"OCR"、"文字识别"、"截图识字"等
灵活输出：支持 pretty 格式化、stdout 直出或文件保存多种模式

潜在局限

API依赖：必须配置 PADDLEOCR_OCR_API_URL 和 PADDLEOCR_ACCESS_TOKEN，无法离线使用
配额限制：存在API调用频率和每日额度限制，超限需等待或升级
格式局限：不适用于纯文本文件、代码文件、Markdown文档的直接读取
无表格恢复：仅返回行/框级文字，不恢复表格网格结构或阅读顺序

适合人群

需要从截图、照片、扫描件中提取文字内容的办公人员
开发者集成OCR能力至自动化工作流
对中文识别准确率有较高要求的用户

常规风险

凭证泄露风险：API Token需妥善保管，避免在聊天中明文传输
网络依赖：API调用失败时无降级方案，任务将中断
隐私合规：上传敏感文档至第三方云端API需评估数据安全策略
成本不可控：高频调用可能产生意外费用，建议监控用量

ocr text-extraction image-processing chinese-language document-scanning baidu paddleocr

PaddleOCR Text Recognition 内容

references文件夹

scripts文件夹

手动下载zip · 12.7 kB

output_schema.mdtext/markdown

请选择文件