使用说明

核心用法

Swarm 是一个基于 Node.js 的 LLM 成本优化编排工具，核心策略是将昂贵的主模型（如 Claude Opus、GPT-4o）的负载转移到极便宜的 Gemini Flash（成本降低约 200 倍）。它通过本地守护进程管理多个并行工作节点，提供五种主要执行模式：

1. Parallel（并行）：同时执行 N 个独立提示，适合批量摘要、比较、实体处理
2. Research（研究）：多阶段流程（搜索→获取→分析），集成 Google Search 实时数据
3. Chain（链式）：多阶段流水线，支持 parallel/single/fan-out/reduce 四种阶段模式，内置 10 种专业视角（extractor、analyst、critic 等）
4. Skeleton-of-Thought（骨架思维）：先生成大纲，再并行扩展各章节，最后合并，适合长文档生成（14,478 字符/21秒，9.4/10 质量分）
5. Voting（多数投票）：同一提示并行执行 N 次，通过相似度/长度/LLM 评判选出最优答案

高级功能包括：LRU 响应缓存（212-514 倍加速）、结构化 JSON 输出（schema 验证）、自省反思（critic 自动优化）、成本追踪（session/daily 双维度）、基准测试（FLASK 六维评分）。

显著优点

极致成本效益：Gemini Flash 价格比 Claude Opus 低 200 倍，30 个任务从 $0.50 降至 $0.003
架构灵活：Chain 模式的四种阶段类型 + 自动深度预设（quick/standard/deep/exhaustive）适配从简单批处理到复杂多视角分析的全谱系需求
质量保障机制：多数投票策略（judge/similarity/longest）、自省反思（5.0→7.6 分提升）、骨架思维的高吞吐长文本生成
工程成熟：LRU 磁盘持久缓存、阶段级失败重试、结构化输出零解析失败、实时成本统计
零额外成本的实时搜索：Gemini 原生 Google Search grounding，无需额外 API 费用

潜在局限

供应商锁定：核心优化依赖 Gemini Flash，切换供应商（如 OpenAI、Anthropic）将失去 200x 成本优势，需重新评估性价比
网络依赖：Research 模式和 webSearch 选项依赖 Google Search，在某些网络环境或地区可能不稳定
本地运维负担：需维护 Node.js 守护进程（swarm start/stop/restart），相比纯云端方案增加本地故障点
复杂度阈值：Chain 和 Skeleton 模式虽有自动构建，但深度定制仍需理解阶段类型、视角角色、reduce 逻辑等概念
缓存新鲜度风险：212x 加速的 LRU 缓存对时间敏感任务（如价格、新闻）可能返回过时信息，需手动清除或禁用

适合人群

成本敏感型团队：AI 应用月消耗 $500+，希望在不牺牲质量前提下压缩 90%+ 成本
批量处理需求者：日常有 10+ 条独立分析任务（竞品监控、内容审核、数据提取）
研究型工作流：需要多角度分析、 adversarial review、结构化研究报告的产品经理、分析师
长内容生产者：技术文档、市场报告、指南类长文写作，追求 Skeleton-of-Thought 的高吞吐模式
已有 Node.js 生态的开发者：能轻松集成到现有工具链，使用 JavaScript API 构建自定义工作流

常规风险

API 密钥管理：需配置 GEMINI_API_KEY，存在密钥泄露风险（建议限制密钥权限、使用环境变量）
速率限制：默认 max_concurrent_api: 16，高频调用可能触发 Gemini 限速，需动态调整配置
成本监控盲区：虽提供 session 和 daily 统计，但缺乏硬性预算熔断（仅有 max_daily_spend 软限制）
输出一致性：廉价模型可能在复杂推理任务上出现质量波动，建议对关键任务启用 voting 或 reflect 机制
守护进程单点故障：本地 daemon 崩溃将导致所有进行中的任务失败，生产环境需监控和自动重启机制

llm cost-optimization parallel-computing batch-processing gemini chain-of-thought workflow-automation api-orchestration research-tool content-generation

Swarm 内容

暂无文件树

手动下载zip · 140.6 kB

contentapplication/octet-stream

请选择文件