核心功能
mineru 是 OpenDataLab 开源的文档提取工具,支持将 PDF、扫描文档、图片、Word、PowerPoint 及网页转换为结构化的 Markdown、HTML、LaTeX 或 DOCX 格式。核心亮点是双模式设计:flash-extract 模式零配置、免登录、即开即用,适合快速提取简单文档;extract 模式则需要 API Token,但提供表格识别、公式识别(LaTeX)、OCR、批量处理等高级功能,支持 VLM 视觉模型实现复杂版面的高精度解析。
显著优点
- 零门槛上手:flash-extract 无需注册、无需 Token,10MB/20页内文档直接处理
- 多格式输出:支持 Markdown、HTML、LaTeX、DOCX、JSON 五种输出格式
- 模型可切换:
vlm模型适合学术论文等复杂排版,pipeline模型保证零幻觉、高可靠性 - 多语言支持:覆盖中文、英文、日文、韩文、阿拉伯语等 80+ 语言
- 批量处理:extract 模式支持通配符或文件列表批量转换
- 网页爬取:内置
crawl命令可直接将网页转为 Markdown
局限性与潜在缺点
- flash-extract 限制严格:10MB 大小上限、20 页上限、不支持表格/公式识别、仅限 Markdown 输出
- IP 速率限制:免登录模式存在每 IP 的分钟级请求上限,高频使用易触发 429 错误
- vlm 模型幻觉风险:虽然精度更高,但复杂场景下可能产生少量幻觉文本
- Token 依赖:高级功能必须注册获取 API Token,对隐私敏感用户不够友好
- 二进制格式限制:DOCX 输出不能写入 stdout,必须指定
-o目录
适合人群
- 学术研究者:批量解析论文、提取表格与数学公式
- 开发者/数据工程师:构建文档处理流水线,需要稳定 API 集成
- 内容编辑者:快速将 PDF/Word 转为 Markdown 发布
- 初次尝试用户:flash-extract 模式适合零成本体验
常规风险
- 数据隐私:文档上传至云端 API 处理,敏感文件建议评估后使用
- Token 管理:API Token 存储于本地配置文件,共享环境需注意权限设置
- 网络依赖:所有功能均需联网,离线场景无法使用
- 超时风险:大文件或批量任务需主动调整
--timeout参数,默认 900 秒可能不足