zerox

📄 AI 驱动的多格式文档转换器

🥥55总安装量 15评分人数 8
100% 的用户推荐

基于 zerox 库与 GPT-4o,精准转换 PDF/Word/图片为 Markdown,支持 OCR 识别,实现高效文档数字化。

A

基本安全,请在特定环境下使用

  • 来自社区或个人来源,建议先隔离验证
  • ✅ 代码安全规范,无 eval/exec/system 等危险函数,无动态代码加载
  • ✅ 依赖库 zerox 版本锁定(^1.1.20),来自 getomni-ai 组织(GitHub Stars > 1k),来源可靠
  • ⚠️ 文件内容需上传至远程 API(API易中转 OpenAI)进行 OCR 处理,用户需注意敏感文件隐私保护
  • ⚠️ 输入文件路径缺少严格验证,存在潜在路径遍历风险(建议用户自行确保路径合法性)
  • ✅ 权限申请与功能匹配,API Key 通过环境变量配置,无硬编码密钥

使用说明

Zerox 是一款基于 Node.js 的文档转换工具技能,核心功能是利用 GPT-4o 的视觉识别能力,将 PDF、Word、PPTX 及各类图片转换为结构化的 Markdown 文本。该技能提供了前台快速转换和后台异步处理两种模式,前者适合 30 秒内可完成的小文件,后者通过 convert-bg.mjs 脚本实现大文件或扫描 PDF 的后台处理,避免终端阻塞并支持 macOS 通知提醒。

该技能的显著优点在于其强大的 OCR 能力和广泛的格式兼容性。依托 zerox 库和 GPT-4o vision,即使是扫描版 PDF 或图片中的文字也能被准确提取,且能较好保留文档的版面结构和格式。后台处理模式对大型文档友好,通过日志监控和进程脱离设计,确保长时间转换任务的稳定性。输出为标准 Markdown,便于后续的内容编辑、知识库构建或 AI 训练数据处理。

然而,该技能也存在一定局限性。首先,转换过程依赖外部 OpenAI 兼容 API(通过 API易中转),需要稳定的网络连接和 API 费用支出,且文件内容需上传至第三方服务器处理,存在隐私泄露风险。其次,作为 T3 来源(个人/社区维护)的代码型资产,虽代码本身规范,但长期维护和支持存在不确定性。此外,输入路径验证不够严格,存在潜在的路径遍历风险,尽管目前未构成实际漏洞。

该技能适合需要批量处理文档数字化的内容创作者、学术研究人员、开发者以及办公自动化场景。尤其适合处理扫描版论文、合同、书籍等需要 OCR 识别的场景,或需要将 legacy 文档转换为现代 Markdown 格式进行知识管理的用户。

使用风险主要包括:API 密钥管理不当可能导致密钥泄露;敏感文件上传至远程 API 存在数据隐私风险;缺少严格路径验证可能带来的文件系统安全风险;以及大文件转换可能产生较高的 API 调用费用。建议仅在处理非敏感文档时使用,并妥善保管 API Key。

zerox 内容

文件夹图标scripts文件夹
手动下载zip · 4.5 kB
convert-bg.mjstext/javascript
请选择文件