SiphonClaw 是一款面向技术文档管理的 MCP 技能,旨在为现场服务工程师、研究人员及设备维护人员构建智能化的私有知识库。该技能通过文档摄取、多模态检索和视觉识别能力,将分散的 PDF、图像和电子表格转化为可快速检索的结构化知识资产。
核心用法
SiphonClaw 通过五个 MCP 工具构建完整的文档智能管道。siphonclaw_ingest 支持将 PDF、Excel、图像等文件摄入本地向量数据库,自动生成文本和视觉嵌入;siphonclaw_search 提供三重混合检索(BM25 关键词 + 语义向量 + 视觉页面嵌入),并基于 RRF 融合与交叉编码器重排序返回高置信度结果;siphonclaw_identify 允许用户上传设备照片,通过视觉模型识别后自动检索相关文档;siphonclaw_field_note 支持将现场维修记录保存为知识库条目,形成经验积累的闭环;siphonclaw_status 则提供系统健康度、模型可用性和成本追踪的监控能力。
显著优点
该技能最大的优势在于其混合架构设计。Mode A(本地+云端)模式下,利用 Ollama 本地运行嵌入和 OCR 模型实现零成本文档处理,仅将生成和推理任务发送至 OpenRouter,使月均成本控制在 $0.5-5,相比全云端模式节省数十倍费用。同时,三重混合检索机制显著提升了技术文档的召回准确率,特别是在处理包含复杂图表、零件照片和型号标签的工业场景时,视觉嵌入能有效弥补纯文本检索的不足。此外,系统提供复合置信度评分和脚注式引用,帮助用户验证答案可靠性。
潜在缺点与局限性
作为 T3 来源的个人开发者项目,其代码可信度和长期维护能力不及企业级产品。尽管 Skill 本身为纯文档,但实际功能依赖 pip 安装的 Python 包,用户需自行审计源码。本地模式要求约 10GB 磁盘空间和足够内存运行 Qwen3-VL 等模型,硬件门槛较高。配置过程涉及 Ollama、OpenRouter、Brave Search 等多个服务的 API 密钥管理,对非技术用户不够友好。此外,视觉检索效果依赖训练数据分布,对于极度专业的工业设备可能存在识别偏差。
适合的目标群体
该技能特别适合现场服务工程师、设备维修技师、工厂维护团队以及需要管理大量技术文档的研究人员。对于希望在局域网环境构建私有化知识库、避免敏感技术文档上传公有云的中小型企业,SiphonClaw 的本地化处理模式具有显著吸引力。同时,需要快速查询零件编号、维修手册和故障代码的技术人员也能从中获益。
使用风险
用户需注意 T3 来源带来的供应链风险,建议在生产环境使用前审查实际代码。API 密钥管理责任完全由用户承担,需通过环境变量安全配置,避免泄露。本地模式虽保障隐私,但大模型运行会显著消耗计算资源,可能影响其他业务系统性能。依赖的外部服务(如 OpenRouter)的可用性和定价策略变化可能影响服务连续性。此外,OCR 和视觉识别对低质量扫描件或复杂光照条件的照片可能存在识别误差,关键操作建议人工复核。