使用说明

核心用法

sogni-gen 是一款面向 Claude Code / Claude Desktop 用户的 AI 媒体生成技能，通过调用 Sogni AI 的去中心化 GPU 网络实现图像与视频生成。用户可通过自然语言指令（如 "draw"、"generate"、"make a video"）触发生成任务，支持多种工作模式：

图像生成：基础文生图（z_image_turbo_bf16 等模型）、图生图编辑（Qwen 系列支持最多 3 张参考图）、Photobooth 人脸风格迁移（InstantID + SDXL Turbo）。

视频生成：文生视频（t2v）、图生视频（i2v）、音生视频（s2v）、动作迁移（animate-move/replace），以及独特的 360° 环物视频合成（需本地 ffmpeg）。

高级功能：首尾帧插值动画、多视角 LoRA 控制（方位角/仰角/距离）、种子策略管理（prompt-hash 确定性生成）、SPARK/SOGNI 代币余额查询。

配置通过 ~/.config/sogni/credentials 存储凭据，支持 ~/.openclaw/openclaw.json 进行默认参数覆盖，CLI 标志始终优先。

显著优点

1. 模型丰富度：覆盖从极速迭代（Flux Schnell 4 步）到高质量输出（Flux2 Dev）的全谱系图像模型，视频端基于 Wan 2.2 14B 的多种工作流适配不同创意需求。

2. 专业级工作流：360° 环物视频、Photobooth 人脸迁移、照片修复等垂直场景功能完整，参数粒度精细（ControlNet 强度、LoRA 叠加、采样器/调度器覆盖）。

3. 生态集成：原生支持 MCP 协议、OpenClaw 插件体系，JSON 输出便于脚本化，与 Claude 等 Agent 环境无缝衔接。

4. 成本效率：基于代币经济（Spark/Sogni），512x512 图像性价比最优，每日 50 免费 Spark 点降低试用门槛。

5. 确定性生成：prompt-hash 种子策略确保相同提示词输出一致结果，利于迭代优化。

潜在缺点与局限性

1. 外部依赖重：必须注册 Sogni AI 账号并配置凭据，所有生成任务依赖 Sogni 网络可用性，离线场景完全不可用。

2. 视频尺寸约束：i2v 视频要求宽高 16 像素整除，且参考图缩放后尺寸可能因取整导致请求参数失效，需理解自动调整机制或手动使用 --strict-size。

3. ffmpeg 可选依赖：360 视频合成功能需要本地安装 ffmpeg，跨平台配置增加复杂度。

4. T3 来源风险：虽代码质量达标，但由个人开发者维护，长期维护承诺与官方背书弱于 T1/T2 来源。

5. 网络与超时：视频生成默认 300 秒超时，复杂任务可能因网络波动或算力排队失败。

适合的目标群体

AI 辅助创作者：需要快速生成概念图、风格参考、短视频素材的设计师与艺术家。
电商/产品运营：利用 360° 环物视频、Photobooth 生成商品展示与模特图。
Claude 生态用户：已在 Claude Code/Desktop 环境中工作，希望直接通过对话触发媒体生成。
开发者与自动化需求：需要 JSON 接口、MCP 服务器集成，将 AI 生成嵌入工作流。
成本敏感型用户：相比 Midjourney、Runway 等订阅制服务，代币按需付费模式更灵活。

使用风险

凭据泄露风险：~/.config/sogni/credentials 文件权限需严格设置为 600，共享环境或备份时易疏忽。
输出覆盖风险：-o 参数直接写入指定路径，无二次确认，可能意外覆盖重要文件。
代币耗尽风险：批量生成或高分辨率视频消耗迅速，需监控余额（--balance）避免任务中断。
数据上传风险：所有参考图、视频素材上传至 Sogni AI 服务器处理，敏感内容需谨慎评估。
ffmpeg 调用风险：360 视频功能使用 spawnSync 调用本地 ffmpeg，虽参数硬编码无注入风险，但需确保 ffmpeg 来源可信。

安全解读

核心用法

sogni-gen 是一款基于 Node.js 的 CLI 工具，连接 Sogni AI 的去中心化 GPU 网络，提供图像与视频生成能力。用户通过自然语言指令触发，支持文本生成图像（文生图）、图像编辑（图生图）、文本/图像生成视频（文生视频/图生视频）等主流 AI 创作模式。

基础图像生成：

node sogni-gen.mjs "a cat wearing a hat" -o /tmp/cat.png

视频生成（需参考图像）：

node sogni-gen.mjs --video --ref scene.jpg "camera slowly pans left" -o output.mp4

Photobooth 人脸风格化：

node sogni-gen.mjs --photobooth --ref face.jpg "80s fashion portrait"

360° 环绕视频：

node sogni-gen.mjs --angles-360 --angles-360-video out.mp4 -c subject.jpg "studio portrait"

显著优点

1. 多模态统一接口：单一工具覆盖图像生成、视频生成、图像编辑、人脸迁移四大场景，CLI 设计便于脚本化与自动化工作流。

2. 模型丰富度：支持 FLUX、SDXL Turbo、Qwen Image Edit、Wan 2.2 等十余种前沿模型，按速度/质量分级，适配从快速迭代到高质量输出的不同需求。

3. 高级创作特性：

Multiple Angles LoRA：从单张图像生成 8 个方位角视图，支持自动拼接为无缝循环 360° 视频
First/Last Frame 动画：支持双关键帧插值，实现图像 A 到图像 B 的平滑过渡
Sound-to-Video (S2V)：音频驱动视频生成
Animate Move/Replace：运动迁移与区域替换工作流

4. 去中心化算力：基于 Sogni AI 的分布式 GPU 网络，理论上具备弹性扩展能力，降低单点故障风险。

5. 配置灵活性：通过 ~/.openclaw/openclaw.json 支持默认参数预设，CLI 标志可覆盖，适应个人与团队工作流。

潜在缺点与局限性

1. 代币经济门槛：采用 Spark/Sogni 代币计费（非固定货币定价），成本波动受代币市场价格与网络供需影响，预算可控性较弱。

2. 视频尺寸约束严格：i2v（图生视频）要求宽/高为 16 的倍数，且自动缩放参考图像，尺寸不匹配时可能静默调整输出分辨率，需使用 --strict-size 主动控制。

3. 外部依赖耦合：

360° 视频生成依赖本地 ffmpeg
图像处理依赖 sharp 原生模块（需预编译二进制下载）
网络受限环境需额外配置代理

4. 凭证管理责任：API 凭证以明文形式存储于本地文件，虽建议 chmod 600 保护，但无内置加密或密钥托管机制，多用户系统存在泄露风险。

5. 生态锁定：深度绑定 Sogni AI 专有 API 与代币体系，迁移至其他平台（如 Replicate、Runway、Stability AI）需重写工作流。

适合人群

AI 创作者与设计师：需要批量生成图像/视频素材，追求自动化脚本工作流
开发者与技术团队：熟悉 CLI 工具，需将 AI 生成能力集成至 CI/CD 或数据处理管道
3D 与电商从业者：360° 环绕视频功能特别适合商品展示、虚拟试穿等场景
内容创作者：人脸风格化（Photobooth）快速生成社交媒体头像或艺术肖像

常规风险

| 风险类型 | 说明 | 缓解建议 |

|---------|------|---------|

| **代币耗尽** | Spark 余额不足导致任务失败 | 每日领取免费额度，监控 `--balance` 输出 |

| **尺寸违规** | 视频尺寸非 16 倍数触发自动调整或错误 | 使用 512×512、768×768 等标准尺寸 |

| **凭证泄露** | `~/.config/sogni/credentials` 权限配置不当 | 严格遵循 `chmod 600` 设置 |

| **原生依赖失败** | sharp 或 ffmpeg 安装/编译问题 | 确保 Node.js 版本兼容，预装系统 ffmpeg |

| **内容合规** | 生成内容可能违反平台政策或版权 | 遵守 Sogni AI 服务条款，避免生成敏感内容 |

image-gen content-media video-generation ai-ml productivity automation api

sogni-gen 内容

desktop-extension文件夹

server文件夹

Support文件夹

Claude文件夹

test文件夹

手动下载zip · 71.3 kB

mcp-server.mjstext/javascript

请选择文件