使用说明

image2prompt 是一款基于视觉大模型的图像逆向工程工具，核心工作流分为两步：首先自动识别图像类别（人像、风景、产品、动物、插图或其他），随后针对不同类别执行深度视觉分析并生成可用于AI图像复刻的详细提示词。

用户可通过 OpenClaw CLI 调用，支持三种输出模式：默认自然语言描述（人像600-1000词，其他400-600词）、结构化JSON（便于程序化调用）、以及带维度标签的输出（将视觉元素分类标注为背景、物体、角色、风格、动作、色彩、氛围、光影、构图、主题等）。

专业级分类体系：五大类别覆盖主流图像场景，每类定义了数十项分析维度。人像分析涵盖模特特征、面部细节、发型、姿态、服装、配饰、环境、光影、相机参数等完整摄影要素；产品分析聚焦商业摄影的布光与 staging；插图分析则针对UI/信息图等数字设计场景。

输出高度结构化：JSON格式输出可直接对接下游AI绘图工作流（如Midjourney、Stable Diffusion、DALL-E），支持自动化批量处理。维度提取功能特别适合构建提示词数据库或训练数据集。

模型兼容性强：明确支持GPT-4 Vision、Claude 3系列、Gemini Pro Vision等主流多模态模型，用户可根据成本与质量需求灵活选择底层引擎。

依赖外部工具链：该Skill本身为纯文档型，实际执行完全依赖用户本地安装的openclaw CLI工具，若工具未配置或版本不兼容则无法使用。

无内置图像处理能力：不支持直接上传图像文件进行分析，需通过命令行指定路径，对非技术用户门槛较高。

输出质量受限于底层模型：提示词的详细程度与准确性完全取决于所选视觉模型的能力，若使用较弱的模型可能导致关键视觉元素遗漏或描述偏差。

版权与伦理边界模糊：逆向生成他人作品的详细提示词可能涉及风格模仿的版权争议，Skill文档未提供相关使用指引。

供应链依赖风险：核心功能依赖openclaw CLI工具，该工具的安全性、更新维护状态及API密钥管理（需配置OPENAI_API_KEY等环境变量）不在本Skill控制范围内。

API成本波动：高分辨率图像分析可能产生较高的视觉模型调用费用，批量处理时需预估成本。

提示词泄露风险：若处理包含敏感信息的图像（如内部设计稿、未发布产品），生成的结构化描述可能无意中泄露关键视觉特征。

模型幻觉风险：视觉模型可能对复杂图像产生错误识别（如混淆艺术风格、误判材质），导致生成的提示词无法准确复刻原图。

安全解读

Image2Prompt 是一款专业的图像分析技能，能够深度解析输入图片并生成可用于 AI 图像生成的详细提示词。其核心工作流程分为两步：类别检测（自动识别图片为肖像、风景、产品、动物、插画或其他类型）和针对性分析（按类别提取专业视觉元素）。

用户可通过命令行直接调用，支持自然语言和结构化 JSON 两种输出格式。自然语言模式适合直接复制到 Midjourney、Stable Diffusion 等图像生成工具；结构化 JSON 则便于程序化调用和数据分析。高级功能还包括维度提取，可将提示词按背景、人物、风格、光影等维度分类标签化。

1. 专业级分析框架：针对不同类别设计了行业标准的分析维度——肖像类涵盖从面部特征到相机参数的 11 个维度，产品类聚焦商业摄影要素，插画类识别图表类型与设计规范，确保输出的专业性和完整性。

2. 双模输出灵活适配：自然语言输出流畅可直接使用，结构化输出支持程序化集成，满足从个人创作者到企业开发者的多元需求。

3. 零代码安全设计：纯 Markdown 文档型 Skill，无可执行代码、无敏感信息收集、无外部 API 调用风险，隐私合规通过 GDPR/CCPA 认证。

4. 多模型兼容：支持 GPT-4 Vision、Claude 3、Gemini Pro Vision 等主流视觉模型，用户可按需选择。

该 Skill 本身无数据外泄风险，但用户需注意：上传含敏感个人信息的图片时，视觉模型处理环节可能存在隐私暴露；生成的提示词若直接商用，需确认原始图片版权状态避免侵权。

手动下载zip · 3.3 kB

SKILL.mdtext/markdown

请选择文件