LLMWhisperer

📄 手写笔记与表单智能识别专家

基于 Unstract LLMWhisperer API 的文档 OCR 工具,擅长手写体识别与复杂表格布局提取,免费额度 100 页/天

收藏
8.4k
安装
3k
版本
0.0.7
CLS 安全性认证2026-05-13
点击查看完整报告 >

使用说明

核心用法

LLMWhisperer 是一个命令行工具,用于从图像和 PDF 文件中提取文本及保留原始布局。用户需先在 ~/.clawdbot/.env 配置 LLMWHISPERER_API_KEY,随后通过 llmwhisperer <file> 即可调用。支持将输出重定向保存或直接在终端查看。

显著优点

  • 手写体友好:相比传统 OCR,对非印刷体识别准确率更高
  • 布局保留output_mode=layout_preserving 模式可维持文档结构
  • 免费易用:100 页/天的免费额度适合个人轻量使用
  • 多格式支持:同时处理图片(JPG/PNG)和 PDF

潜在缺点与局限性

  • 依赖外部 API:网络波动或服务宕机直接影响可用性
  • 数据隐私风险:文件需上传至 Unstract 云端处理
  • 配额限制:免费 tier 仅 100 页/天,大量文档需付费
  • 无本地离线能力:纯云端方案,无法内网部署

适合人群

  • 需要处理手写笔记、表单的个人用户
  • 轻量级文档数字化需求的自由职业者
  • 快速原型验证阶段的开发者

常规风险

  • API 密钥泄露风险(需妥善保管 .env 文件)
  • 敏感文档外传合规问题(医疗、金融、法律场景慎用)
  • 服务持续性依赖第三方商业公司

安全解读

核心用法

LLMWhisperer 是一款基于外部 API 的文本提取工具,通过调用 Unstract 提供的 LLMWhisperer 服务,从图像和 PDF 文件中提取结构化文本内容。用户需先获取 API 密钥(免费 tier 含 100 页/天),配置至 ~/.clawdbot/.env 后即可使用。命令行用法极为简洁:llmwhisperer <file>,支持输出重定向保存结果。

脚本实现仅 75 行,核心逻辑为 curl POST 请求,采用 high_quality 模式和 layout_preserving 输出,可保留原始文档布局结构。特别适用于手写笔记、扫描发票、复杂表格等 OCR 困难场景。

显著优点

  • 功能单一聚焦:无冗余功能,专精文本提取,代码简洁可审计
  • API 密钥管理规范:从环境变量或配置文件读取,无硬编码凭证风险
  • 零依赖安装:仅依赖系统标准 curl 命令,无额外包管理负担
  • 免费额度友好:100 页/天免费额度满足个人轻量使用
  • 布局保留输出layout_preserving 模式保留文档结构,便于后续处理

潜在局限

  • 强制联网依赖:所有文件必须上传至第三方服务器,无法离线使用
  • 数据隐私风险:用户文件内容完整外发至 unstract.com,敏感文档需谨慎
  • 无本地错误处理:curl 失败时缺乏 HTTP 状态码检查和友好提示
  • 参数固化:API 调用参数硬编码,不支持灵活调整处理模式
  • 无文件大小限制:可能因大文件导致 API 失败或意外费用

适合人群

  • 需处理手写笔记、复杂表单、扫描文档的个人用户
  • 对 OCR 准确性要求高于本地 Tesseract 方案的用户
  • 可接受文件上传至第三方云服务、处理非敏感内容的场景
  • 追求极简部署、不愿维护复杂 OCR 环境的开发者

常规风险

1. 数据外泄风险(中等):文件内容传输至第三方服务器,需审阅 Unstract 隐私政策
2. API 服务可用性:依赖 Unstract 服务稳定性,存在单点故障可能

3. 费用累积风险:超出免费额度后可能产生费用,无本地用量预警机制

4. 配置文件权限:建议设置 chmod 600 ~/.clawdbot/.env 防止密钥泄露

LLMWhisperer 内容

手动下载zip · 1.1 kB
SKILL.mdtext/markdown
请选择文件