使用说明

核心用法

Image Cog 是基于 CellCog 的 AI 图像生成技能，整合了 Google Gemini、OpenAI GPT Image 1.5 和 Recraft 三家模型能力，实现智能路由与多场景覆盖。用户通过 client.create_chat() 调用，支持两种模式：chat_mode="agent" 适合单图快速生成，chat_mode="agent team" 适用于复杂场景、角色系列或多图套装。

核心功能包括：

文生图：场景、肖像、产品、抽象艺术、自然风光等全品类生成
图生图：风格迁移、背景移除、色彩增强、元素修改
角色一致性：跨场景保持人物特征，适用于漫画、品牌IP、视频分镜
产品摄影：专业级产品图、生活场景图、多角度展示
参考图生成：以现有图片为基准匹配风格或人物
多图套装：社交媒体系列、网站头图、广告变体

显著优点

1. 多模型智能调度：Nano Banana 2（Gemini）作为默认模型处理复杂构图与文本渲染；GPT Image 1.5 专精透明背景；Recraft 负责矢量插图，无需手动切换
2. 角色一致性能力突出：支持多轮对话保持人物特征，是少数原生支持连贯角色创作的方案
3. 灵活的规格控制：8种宽高比、3档分辨率（1K/2K/4K）、多种艺术风格可选
4. 商业化场景覆盖全：从社交媒体素材到印刷级4K输出，满足设计全流程

潜在局限

依赖 CellCog 生态：必须安装并配置 CellCog SDK 及 API Key，增加初始部署成本
模型黑盒路由：虽然智能调度方便，但用户无法精确控制底层模型参数（如种子值、步数）
仅支持 PNG 输出：缺少 JPG/WebP 等格式，对 Web 优化场景需二次转换
无内置版权审查：生成内容需用户自行承担合规责任

适合人群

UI/UX 设计师、电商运营（快速产出产品图）
内容创作者、自媒体（社交媒体视觉素材）
游戏/动画预演团队（角色概念与分镜）
营销团队（campaign 多尺寸素材批量生成）

常规风险

1. 知识产权：AI 生成图像的版权归属因司法管辖区而异，商用前需确认合规
2. 内容安全：可能生成不当内容，需配合平台的内容审核机制
3. API 依赖：服务稳定性取决于 CellCog 及底层模型供应商（Google/OpenAI/Recraft）
4. 成本累积：4K 高清输出与多图套装调用次数多，需关注 Token/请求计费

image-generation ai-art text-to-image image-to-image product-photography character-consistency style-transfer cellcog content-creation marketing-design

Image Cog 内容

手动下载zip · 4.1 kB

SKILL.mdtext/markdown

请选择文件