使用说明

核心功能

Image Cog 是基于 CellCog 平台的综合 AI 图像生成技能，整合 Google Gemini 3.1 Flash Image（Nano Banana 2）、OpenAI GPT Image 1.5 和 Recraft 三大模型，实现智能任务路由：Nano Banana 2 作为默认引擎负责通用图像生成与多轮角色一致性；GPT Image 1.5 专精透明背景图像（logo、贴纸、产品抠图）；Recraft 则处理可缩放矢量图与图标设计。

显著能力覆盖：

单一图像生成：场景、人像、产品、抽象艺术、自然风景等全品类
图像编辑：风格迁移、背景移除/替换、色彩增强、元素修改
角色一致性系列：通过详细特征描述实现跨场景角色统一，适用于漫画、营销素材、品牌吉祥物
专业产品摄影：主视觉图、生活方式场景、平铺构图、多角度视图
关联图像集：社交媒体系列、网站头图、广告变体、博客配图
参考图驱动生成：基于现有图像匹配风格、人物或构图

技术规格灵活：支持 1:1 至 21:9 多种比例、1K-4K 分辨率、写实/插画/水彩/油画/动漫/矢量等风格，默认 PNG 输出。

显著优点

1. 模型智能路由：无需手动选择模型，系统自动根据任务特征（透明背景需求→GPT，矢量需求→Recraft）优化输出
2. 角色一致性突破：Nano Banana 2 的多轮对话式角色保持能力，解决 AI 图像生成中长期存在的角色漂移痛点
3. 工作流深度整合：与 CellCog SDK 无缝衔接，支持 OpenClaw 异步代理模式，适合长时批量任务
4. 场景覆盖完整：从个人创作者到企业级产品视觉、从社交内容到印刷级素材均具备解决方案

潜在局限与风险

依赖外部服务：模型调用受限于 Google、OpenAI、Recraft 的 API 可用性与政策变动
版权模糊地带：生成内容可能训练于受版权保护作品，商业使用存在潜在法律风险
提示词门槛：高质量输出仍需用户掌握详细描述技巧（光照、构图、情绪、风格），初学者可能经历试错周期
一致性非绝对：即使「consistent characters」功能，复杂场景下仍可能出现细节偏差，需人工校验
无本地执行：完全云端处理，敏感图像素材存在数据传输与存储顾虑

适合人群

营销团队与品牌设计师：快速产出_campaign 级视觉素材
独立创作者与自媒体：降低专业图像制作门槛
产品经理与创业者：低成本验证视觉概念、生成 MVP 配图
游戏/动画预制作：故事板、角色设定、场景概念探索

常规风险提示

建议商业项目预留 10-20% 人工后期调整时间；涉及真人肖像或知名品牌元素时，需额外法律审查；敏感行业（医疗、金融）应避免将 AI 生成图像作为事实依据呈现。

image-generation ai-photography text-to-image character-consistency style-transfer product-photography content-creation marketing design

Image Cog 内容

手动下载zip · 4.0 kB

SKILL.mdtext/markdown

请选择文件