核心用法
LLMWhisperer 是一款面向终端用户的文档文本提取工具,通过调用 Unstract 提供的 LLMWhisperer API,将图像(JPG/PNG)和 PDF 文件转换为结构化文本。用户需先在 ~/.clawdbot/.env 配置 API 密钥,随后通过 llmwhisperer <file> 命令直接处理本地文件,支持管道重定向保存结果。
显著优点
- 手写识别专长:区别于通用 OCR,针对手写笔记、签名、填表手写体优化
- 复杂版式还原:保留文档布局信息,适合发票、表单、 flyer 等结构化文档
- 零配置启动:单文件命令行工具,无需本地模型部署或依赖管理
- 免费额度友好:每日 100 页免费额度,适合个人用户轻量使用
潜在局限
- 云端依赖:必须联网调用 API,无法离线使用;网络波动影响稳定性
- 隐私顾虑:敏感文档需上传至第三方服务器处理
- 额度限制:免费 tier 对批量处理场景不足,超出后需付费
- 功能边界:专注于文本提取,无表格转 Excel、多语言翻译等衍生功能
适合人群
- 需要快速数字化手写笔记的学生、研究员
- 处理扫描发票、纸质表单的财务人员
- 不想部署本地 OCR 模型的轻量用户
常规风险
- API 密钥需妥善保管,避免硬编码提交至代码仓库
- 上传含个人信息的文档前,建议确认 Unstract 数据处理政策
- 免费额度耗尽后服务中断,关键任务需评估付费方案