PaddleOCR Text Recognition

🔤 精准识别图片文字,一键提取全文

基于百度飞桨PaddleOCR的云端文字识别工具,支持图片/PDF提取全文及坐标定位,需配置API密钥使用。

收藏
8.8k
安装
2.4k
版本
1.0.12
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

PaddleOCR Text Recognition 是一款调用百度飞桨PaddleOCR云端API的文字识别技能,支持从图片、截图、扫描件及PDF中提取文字内容,并返回检测框坐标信息。使用时需通过命令行执行 python scripts/ocr_caller.py,支持 --file-url--file-path 参数指定输入源,输出可选择保存为JSON文件或直接打印到标准输出。

显著优点

  • 高精度识别:基于PaddleOCR PP-OCRv5模型,中文识别准确率高
  • 坐标定位:返回每行文字的边界框(bbox)位置,便于后续版面分析
  • 双语触发:支持中英文关键词路由,如"OCR"、"文字识别"、"截图识字"等
  • 灵活输出:支持 pretty 格式化、stdout 直出或文件保存多种模式

潜在局限

  • API依赖:必须配置 PADDLEOCR_OCR_API_URLPADDLEOCR_ACCESS_TOKEN,无法离线使用
  • 配额限制:存在API调用频率和每日额度限制,超限需等待或升级
  • 格式局限:不适用于纯文本文件、代码文件、Markdown文档的直接读取
  • 无表格恢复:仅返回行/框级文字,不恢复表格网格结构或阅读顺序

适合人群

  • 需要从截图、照片、扫描件中提取文字内容的办公人员
  • 开发者集成OCR能力至自动化工作流
  • 对中文识别准确率有较高要求的用户

常规风险

  • 凭证泄露风险:API Token需妥善保管,避免在聊天中明文传输
  • 网络依赖:API调用失败时无降级方案,任务将中断
  • 隐私合规:上传敏感文档至第三方云端API需评估数据安全策略
  • 成本不可控:高频调用可能产生意外费用,建议监控用量

PaddleOCR Text Recognition 内容

references文件夹
scripts文件夹
手动下载zip · 12.7 kB
output_schema.mdtext/markdown
请选择文件