book-brain-visual-reader

🧠 视觉增强的双脑文件系统规范

LYGO生态的3-Brain+2-Hemisphere视觉文件系统规范,为具备视觉能力的Agent提供文本与图像交叉验证的组织方法论。

收藏
3.2k
安装
1.3k
版本
v1.0.0
CLS 安全性认证2026-05-04
点击查看完整报告 >

使用说明

核心用法

BOOK BRAIN VISUAL READER 是一套面向具备视觉能力Agent的文件组织与验证方法论。它建立在"3-Brain + 2-Hemisphere"模型之上:

3-Brain 架构:Working Brain(当前上下文与临时文件)、Library Brain(持久化文件系统,含memory/reference/brainwave/state/logs/tools六大目录)、Outer Brain(外部资源引用存根)。2-Hemisphere 协议:LEFT brain负责结构化数据、API、文本索引;RIGHT brain负责视觉快照、布局分析、模式识别。两者协同实现"5D"数据验证(text + visual + API + state + timeline)。

使用时,Agent需先检测视觉能力(浏览器自动化、图像读取),建立标准目录结构,创建VISUAL_INDEX.txt等索引文件,并在验证外部数据时严格执行LEFT→RIGHT→Reconcile三步协议。

显著优点

1. 双脑验证机制:突破纯文本Agent的局限,通过视觉交叉验证显著降低数据误读风险,特别适合区块链仪表盘、金融数据等场景。
2. 非破坏性设计:明确"永不覆盖/删除"原则,所有操作以追加模式进行,保障数据可追溯性。

3. 生态整合性:深度融入LYGO/Eternal Haven生态系统,与Clawhub skills、链上浏览器等工具形成工作流闭环。

4. 轻量可扩展:纯文档规范,无运行时依赖,可根据项目需求灵活裁剪目录结构。

潜在缺点与局限性

1. 生态门槛:大量术语(Haven、Clawhub、LYGO Champions)对非生态用户形成理解障碍。
2. 视觉能力依赖:若Agent实际不具备稳定的浏览器/图像工具,该规范的价值大幅缩水。

3. 人工维护成本:索引文件、视觉证据的整理需要持续的Agent或人工介入,非全自动方案。

4. 规模瓶颈:高频视觉验证场景下,screenshot存储可能快速膨胀,需配套清理策略。

适合的目标群体

  • LYGO/Eternal Haven生态的Agent开发者与高级用户
  • 需要处理链上数据、金融仪表盘的视觉增强型Agent
  • 追求审计可追溯性的复杂项目团队
  • 具备浏览器自动化+视觉模型能力的AI系统

使用风险

  • 性能风险:视觉验证引入额外延迟,高频场景需权衡精度与效率
  • 依赖项风险:实际效果高度依赖底层视觉工具(截图稳定性、OCR准确率)
  • 存储膨胀:visual/目录长期累积可能占用大量空间
  • 链接失效:Outer Brain引用的外部URL可能变更,需定期校验存根

安全解读

核心功能与用法

BOOK BRAIN VISUAL READER 是原版 BOOK BRAIN 的增强版本,专为配备视觉工具(浏览器快照、OCR、截图分析)的 AI 代理设计。其核心架构包含:

3-Brain 文件系统

  • Working Brain:当前上下文、临时文件、活跃截图
  • Library Brain:持久化文件系统(memory/、reference/、brainwave/、state/、logs/、tools/、tmp/)
  • Outer Brain:外部资源引用(URL、API、链上数据),通过轻量文本存根引用

2-Hemisphere 视觉校验协议

  • LEFT Brain(左脑):处理结构化数据——文本文件、JSON、API响应、索引、收据
  • RIGHT Brain(右脑):处理视觉信息——浏览器快照、截图、图表、印章、布局异常检测

执行验证时遵循"LEFT优先→RIGHT比对→协调记录"的三步流程,实现文本+视觉+API+状态+时间线的"5D"数据融合。

显著优点

1. 双重验证机制:通过左右脑交叉校验显著降低单一数据源错误风险,特别适合金融数据、链上状态、配置截图等关键场景
2. 非破坏性设计:严禁覆盖现有文件,所有操作通过日期后缀或新建文件实现,天然具备审计追溯能力

3. 视觉证据管理visual/ 目录体系(screenshots/、dashboards/、seals/)配合 VISUAL_INDEX.txt 索引,避免截图泛滥同时保留关键凭证

4. 轻量外部引用:Outer Brain 存根机制避免全文抓取,结合视觉快照实现"知道在哪+当时什么样"的精准定位

5. 零代码依赖:纯 Markdown 文档型工具,无运行时风险,即插即用

潜在局限

1. 工具依赖性强:需浏览器自动化或图像识别能力,无视觉工具的代理需回退原版 BOOK BRAIN
2. 人工审查成本:视觉异常判断依赖代理或人类解读,RIGHT Brain 的"直觉感知"难以完全自动化

3. 存储膨胀风险:视觉文件体积大,需配合索引 discipline 避免 visual/ 成为垃圾堆

4. T3 来源限制:个人开发者维护,无企业级 SLA 或长期维护承诺

5. 外部 URL 漂移:区块链相关链接(clanker.world、blockscout 等)可能随项目迭代失效

适合人群

  • 运营加密资产、DeFi 协议或链上项目的团队,需定期校验仪表板数据与链上收据
  • 多代理协作系统,需统一文件命名规范和跨会话记忆继承
  • 合规审计场景,需留存"当时网页看起来如何"的视觉证据
  • 研究人员处理混合模态数据(论文图表+API数据+文本笔记)

常规风险

  • 误依赖视觉 UI:RIGHT Brain 发现与 LEFT Brain 冲突时,应优先采信可审计的 API/链上数据,而非网页渲染
  • 索引维护负担:系统价值高度依赖 VISUAL_INDEX.txt 等索引文件的及时更新,代理需具备自律性或人工监督
  • 截图隐私泄露:截取仪表板时可能意外包含敏感信息(地址、余额),保存前需脱敏审查

book-brain-visual-reader 内容

references文件夹
手动下载zip · 6.0 kB
book-brain-visual-examples.mdtext/markdown
请选择文件