pdf-ocr-layout

📄 高精度多模态文档智能解析

🥥5总安装量 1评分人数 1
100% 的用户推荐

基于智谱 GLM 系列多模态大模型,实现 PDF/图片的高精度 OCR 提取、表格 Markdown 转换与图表深度语义分析,自动构建结构化文档数据。

B

存在边界风险,建议在隔离环境中验证

  • 来自可信组织或认证账号,需要结合权限范围判断
  • ✅ 代码安全合规:经审查未发现恶意代码执行、系统命令注入或可疑动态下载行为
  • ✅ 网络安全可控:仅与智谱 AI 官方 API 通信,无异常外联或数据窃取行为
  • ✅ 文件操作安全:所有文件读写限定在用户指定目录,无越权访问敏感路径风险
  • ✅ 密钥管理规范:API Key 通过环境变量 ZHIPU_API_KEY 获取,无硬编码凭证
  • ⚠️ 数据上传风险:文档内容需上传至智谱 AI 云端进行 OCR 和分析,敏感信息需谨慎处理

使用说明

GLM-OCR 多模态文档深度分析工具是一款基于智谱 AI 先进模型构建的专业级文档解析解决方案。该 Skill 通过整合 GLM-OCR 布局识别、GLM-4.7 文本推理与 GLM-4.6V 视觉理解能力,构建了从物理布局提取到语义深度分析的完整 pipeline。

核心用法上,用户通过命令行指定输入文件(支持 PDF、PNG、JPG 等格式)与输出目录,工具将自动执行三阶段处理:首先调用 GLM-OCR 进行页面物理布局分析,精准识别表格与图像元素的边界框坐标;随后自动裁剪图表为独立图像文件,并将表格转换为 Markdown 格式;最后基于 GLM-4.7 对表格数据进行业务逻辑与数值关系分析,同时利用 GLM-4.6V 对图像进行多模态视觉理解,结合全文上下文生成深度语义解读。

显著优点包括:极高的布局提取精度,能够处理复杂版式文档;真正的多模态理解能力,不仅提取内容更能洞察图表背后的业务含义;灵活的结构化输出,表格转为可编辑 Markdown,图像按 Bbox 独立保存;以及强大的上下文关联分析,理解过程结合全文逻辑而非孤立片段处理。

潜在局限方面,当前版本默认仅处理 PDF 首页,多页文档需用户在脚本层自行扩展循环逻辑;处理过程依赖智谱云端 API,需稳定网络连接且产生相应调用成本;对于极度复杂的艺术化排版或低质量扫描件识别精度可能受限;此外,大模型分析结果可能存在幻觉风险,关键业务数据需人工复核确认。

适合群体涵盖学术研究人员(论文图表提取与语义分析)、金融数据分析师(财报数据结构化与逻辑解读)、企业产品经理(竞品文档解析与洞察提取)以及知识管理团队(历史文档数字化与知识抽取)。

使用风险主要包括:数据隐私考量(原始文档内容需上传至智谱云服务端处理)、API 密钥安全管理(需正确配置 ZHIPU_API_KEY 环境变量,避免泄露)、以及大文件处理的性能开销(多模态分析涉及多次 API 调用,耗时较长且受网络波动影响)。

pdf-ocr-layout 内容

文件夹图标script文件夹
手动下载zip · 10.2 kB
glm_ocr_extract.pytext/plain
请选择文件