核心用法
LLMWhisperer 是基于 Unstract 提供的 OCR API 的 CLI 封装技能,支持从图片(JPG/PNG)和 PDF 文件中提取结构化文本。使用时需先在 ~/.clawdbot/.env 配置 LLMWHISPERER_API_KEY,然后通过 llmwhisperer <file> 直接调用。输出默认定向至终端,可通过重定向保存为文本文件。
显著优点
- 手写识别专项优化:相比通用 OCR,对手写笔记、签名等场景识别率更高
- 复杂版式保持:能较好还原表单、发票等多栏布局的文本结构
- 零本地依赖:纯 API 调用,无需本地安装 Tesseract 等重型 OCR 引擎
- 免费入门友好:100 页/天的免费额度足以支撑个人轻度使用
潜在缺点与局限
- 网络强依赖:断网或 API 服务故障时完全不可用
- 隐私风险:文件需上传至第三方云服务商处理,敏感文档存在数据泄露隐患
- 额度天花板:免费档 100 页/日对批量处理场景明显不足,商用需付费
- 格式支持有限:仅明确支持常见图片和 PDF,扫描版 Office 文档需先转换
- 无批量接口:CLI 设计为单文件处理,大量文件需自行编写循环脚本
适合人群
- 偶尔需要数字化手写笔记的学生、研究者
- 处理发票、收据等版式复杂但数量不多的小型商户
- 不想折腾本地 OCR 环境配置的懒人用户
- 对数据隐私要求不高、非涉密场景的个人用户
常规风险
| 风险类型 | 说明 |
|---------|------|
| 数据主权 | 文件上传至 Unstract 服务器,可能受美国/cloud 司法管辖 |
| API 密钥泄露 | `.env` 文件权限不当可能导致密钥被盗用 |
| 服务持续性 | 免费政策、API 端点可能随厂商策略调整而变更 |
| 识别误差 | 手写体识别虽优于通用方案,但潦草字迹仍可能出错,关键场景需人工复核 |