使用说明

核心用法

LLMWhisperer 是一款面向终端用户的文档文本提取工具，通过调用 Unstract 提供的 LLMWhisperer API，将图像（JPG/PNG）和 PDF 文件转换为结构化文本。用户需先在 ~/.clawdbot/.env 配置 API 密钥，随后通过 llmwhisperer <file> 命令直接处理本地文件，支持管道重定向保存结果。

显著优点

手写识别专长：区别于通用 OCR，针对手写笔记、签名、填表手写体优化
复杂版式还原：保留文档布局信息，适合发票、表单、 flyer 等结构化文档
零配置启动：单文件命令行工具，无需本地模型部署或依赖管理
免费额度友好：每日 100 页免费额度，适合个人用户轻量使用

潜在局限

云端依赖：必须联网调用 API，无法离线使用；网络波动影响稳定性
隐私顾虑：敏感文档需上传至第三方服务器处理
额度限制：免费 tier 对批量处理场景不足，超出后需付费
功能边界：专注于文本提取，无表格转 Excel、多语言翻译等衍生功能

适合人群

需要快速数字化手写笔记的学生、研究员
处理扫描发票、纸质表单的财务人员
不想部署本地 OCR 模型的轻量用户

常规风险

API 密钥需妥善保管，避免硬编码提交至代码仓库
上传含个人信息的文档前，建议确认 Unstract 数据处理政策
免费额度耗尽后服务中断，关键任务需评估付费方案

安全解读

核心用法

LLMWhisperer 是一个命令行文档解析工具，通过调用 Unstract 官方 API 实现图像和 PDF 的文本提取。用户需先配置 LLMWHISPERER_API_KEY 环境变量，随后以 llmwhisperer <file> 格式执行即可。输出默认打印至终端，可通过重定向保存为文本文件。该工具特别优化了手写文字和复杂排版文档的识别能力。

显著优点

识别精度高：针对手写笔记、发票、传单等复杂场景专项优化
使用门槛低：纯命令行交互，无需安装复杂依赖
免费额度充足：每日 100 页免费额度满足个人轻度使用
来源可信：Unstract 为专注文档智能的 SaaS 公司，服务稳定
隐私可控：数据通过 HTTPS 加密传输，符合 GDPR/CCPA 合规要求

潜在缺点与局限性

网络依赖：必须联网调用云端 API，无法离线使用
隐私顾虑：文档需上传至第三方服务器处理，敏感文件需谨慎
语言支持未明确：官方未披露完整语言支持列表
格式输出单一：仅支持纯文本输出，无结构化数据（如 JSON、表格）
免费额度限制：高频或商业场景需付费升级

适合人群

需要批量提取扫描件、手写笔记文字的个人用户
财务/行政人员处理发票、收据等非结构化文档
研究人员整理纸质资料数字化存档
对 OCR 精度有较高要求，但不愿部署本地复杂方案的用户

常规风险

API Key 泄露风险：密钥存储于本地 .env 文件，需妥善保管
服务可用性风险：依赖 Unstract 云服务稳定性
数据残留风险：文档上传后处理周期内的云端存储（建议阅读官方隐私政策）
费用失控风险：超出免费额度后可能产生意外费用

ocr document-processing pdf handwriting api-based text-extraction

LLMWhisperer 内容

手动下载zip · 831 B

SKILL.mdtext/markdown

请选择文件