使用说明

核心用法

LLMWhisperer 是基于 Unstract 提供的 OCR API 的 CLI 封装技能，支持从图片（JPG/PNG）和 PDF 文件中提取结构化文本。使用时需先在 ~/.clawdbot/.env 配置 LLMWHISPERER_API_KEY，然后通过 llmwhisperer <file> 直接调用。输出默认定向至终端，可通过重定向保存为文本文件。

显著优点

手写识别专项优化：相比通用 OCR，对手写笔记、签名等场景识别率更高
复杂版式保持：能较好还原表单、发票等多栏布局的文本结构
零本地依赖：纯 API 调用，无需本地安装 Tesseract 等重型 OCR 引擎
免费入门友好：100 页/天的免费额度足以支撑个人轻度使用

潜在缺点与局限

网络强依赖：断网或 API 服务故障时完全不可用
隐私风险：文件需上传至第三方云服务商处理，敏感文档存在数据泄露隐患
额度天花板：免费档 100 页/日对批量处理场景明显不足，商用需付费
格式支持有限：仅明确支持常见图片和 PDF，扫描版 Office 文档需先转换
无批量接口：CLI 设计为单文件处理，大量文件需自行编写循环脚本

适合人群

偶尔需要数字化手写笔记的学生、研究者
处理发票、收据等版式复杂但数量不多的小型商户
不想折腾本地 OCR 环境配置的懒人用户
对数据隐私要求不高、非涉密场景的个人用户

常规风险

| 风险类型 | 说明 |

|---------|------|

| 数据主权 | 文件上传至 Unstract 服务器，可能受美国/cloud 司法管辖 |

| API 密钥泄露 | `.env` 文件权限不当可能导致密钥被盗用 |

| 服务持续性 | 免费政策、API 端点可能随厂商策略调整而变更 |

| 识别误差 | 手写体识别虽优于通用方案，但潦草字迹仍可能出错，关键场景需人工复核 |

ocr pdf handwriting text-extraction api-service document-parsing

LLMWhisperer 内容

手动下载zip · 831 B

SKILL.mdtext/markdown

请选择文件