LLMWhisperer

📄 手写与复杂版式 OCR,云端即提即用

文档处理榜 #7

LLMWhisperer API 封装,专注手写体与复杂版式 PDF/图片的文字提取,日限 100 页免费额度

收藏
11.9k
安装
3k
版本
0.0.6
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

LLMWhisperer 是基于 Unstract 提供的 OCR API 的 CLI 封装技能,支持从图片(JPG/PNG)和 PDF 文件中提取结构化文本。使用时需先在 ~/.clawdbot/.env 配置 LLMWHISPERER_API_KEY,然后通过 llmwhisperer <file> 直接调用。输出默认定向至终端,可通过重定向保存为文本文件。

显著优点

  • 手写识别专项优化:相比通用 OCR,对手写笔记、签名等场景识别率更高
  • 复杂版式保持:能较好还原表单、发票等多栏布局的文本结构
  • 零本地依赖:纯 API 调用,无需本地安装 Tesseract 等重型 OCR 引擎
  • 免费入门友好:100 页/天的免费额度足以支撑个人轻度使用

潜在缺点与局限

  • 网络强依赖:断网或 API 服务故障时完全不可用
  • 隐私风险:文件需上传至第三方云服务商处理,敏感文档存在数据泄露隐患
  • 额度天花板:免费档 100 页/日对批量处理场景明显不足,商用需付费
  • 格式支持有限:仅明确支持常见图片和 PDF,扫描版 Office 文档需先转换
  • 无批量接口:CLI 设计为单文件处理,大量文件需自行编写循环脚本

适合人群

  • 偶尔需要数字化手写笔记的学生、研究者
  • 处理发票、收据等版式复杂但数量不多的小型商户
  • 不想折腾本地 OCR 环境配置的懒人用户
  • 对数据隐私要求不高、非涉密场景的个人用户

常规风险

| 风险类型 | 说明 |
|---------|------|
| 数据主权 | 文件上传至 Unstract 服务器,可能受美国/cloud 司法管辖 |
| API 密钥泄露 | `.env` 文件权限不当可能导致密钥被盗用 |
| 服务持续性 | 免费政策、API 端点可能随厂商策略调整而变更 |
| 识别误差 | 手写体识别虽优于通用方案,但潦草字迹仍可能出错,关键场景需人工复核 |

LLMWhisperer 内容

手动下载zip · 831 B
SKILL.mdtext/markdown
请选择文件