使用说明

核心用法

LLMWhisperer 是一个命令行工具，用于从图像和 PDF 文件中提取文本及保留原始布局。用户需先在 ~/.clawdbot/.env 配置 LLMWHISPERER_API_KEY，随后通过 llmwhisperer <file> 即可调用。支持将输出重定向保存或直接在终端查看。

显著优点

手写体友好：相比传统 OCR，对非印刷体识别准确率更高
布局保留：output_mode=layout_preserving 模式可维持文档结构
免费易用：100 页/天的免费额度适合个人轻量使用
多格式支持：同时处理图片（JPG/PNG）和 PDF

潜在缺点与局限性

依赖外部 API：网络波动或服务宕机直接影响可用性
数据隐私风险：文件需上传至 Unstract 云端处理
配额限制：免费 tier 仅 100 页/天，大量文档需付费
无本地离线能力：纯云端方案，无法内网部署

适合人群

需要处理手写笔记、表单的个人用户
轻量级文档数字化需求的自由职业者
快速原型验证阶段的开发者

常规风险

API 密钥泄露风险（需妥善保管 .env 文件）
敏感文档外传合规问题（医疗、金融、法律场景慎用）
服务持续性依赖第三方商业公司

安全解读

核心用法

LLMWhisperer 是一款基于外部 API 的文本提取工具，通过调用 Unstract 提供的 LLMWhisperer 服务，从图像和 PDF 文件中提取结构化文本内容。用户需先获取 API 密钥（免费 tier 含 100 页/天），配置至 ~/.clawdbot/.env 后即可使用。命令行用法极为简洁：llmwhisperer <file>，支持输出重定向保存结果。

脚本实现仅 75 行，核心逻辑为 curl POST 请求，采用 high_quality 模式和 layout_preserving 输出，可保留原始文档布局结构。特别适用于手写笔记、扫描发票、复杂表格等 OCR 困难场景。

显著优点

功能单一聚焦：无冗余功能，专精文本提取，代码简洁可审计
API 密钥管理规范：从环境变量或配置文件读取，无硬编码凭证风险
零依赖安装：仅依赖系统标准 curl 命令，无额外包管理负担
免费额度友好：100 页/天免费额度满足个人轻量使用
布局保留输出：layout_preserving 模式保留文档结构，便于后续处理

潜在局限

强制联网依赖：所有文件必须上传至第三方服务器，无法离线使用
数据隐私风险：用户文件内容完整外发至 unstract.com，敏感文档需谨慎
无本地错误处理：curl 失败时缺乏 HTTP 状态码检查和友好提示
参数固化：API 调用参数硬编码，不支持灵活调整处理模式
无文件大小限制：可能因大文件导致 API 失败或意外费用

适合人群

需处理手写笔记、复杂表单、扫描文档的个人用户
对 OCR 准确性要求高于本地 Tesseract 方案的用户
可接受文件上传至第三方云服务、处理非敏感内容的场景
追求极简部署、不愿维护复杂 OCR 环境的开发者

常规风险

1. 数据外泄风险（中等）：文件内容传输至第三方服务器，需审阅 Unstract 隐私政策
2. API 服务可用性：依赖 Unstract 服务稳定性，存在单点故障可能
3. 费用累积风险：超出免费额度后可能产生费用，无本地用量预警机制
4. 配置文件权限：建议设置 chmod 600 ~/.clawdbot/.env 防止密钥泄露

ocr document-processing pdf api-integration handwriting-recognition text-extraction

LLMWhisperer 内容

手动下载zip · 1.1 kB

SKILL.mdtext/markdown

请选择文件