核心用法
Swarm 是一款面向 AI 代理的并行任务执行引擎,通过将工作负载分发至廉价的 Gemini Flash 工作节点,替代昂贵的顺序 LLM 调用。核心工作流为:启动守护进程 (swarm start) → 提交并行任务 (swarm parallel "prompt1" "prompt2"...) → 自动分发至可用节点执行。
单机基准显示 50 任务可达 35 tasks/sec 吞吐;6 节点分布式部署实测 600 任务 3.8 秒完成,综合吞吐 181 tasks/sec。配置通过 YAML 文件管理,支持最大 20 节点扩展,每日成本上限控制。
显著优点
- 极致成本效益:相比 Claude Opus 顺序执行,600 任务成本从 ~$9.00 降至 ~$0.045,降幅达 200 倍
- 线性扩展能力:每新增节点约增加 30 tasks/sec 吞吐,支持最多 20 节点集群
- 低延迟响应:分布式场景下 3.8 秒完成 600 任务,较传统顺序执行 157 倍提速
- 灵活部署:纯 Node.js 实现,支持本地单节点到多服务器集群,文件系统协调无需额外中间件
- 配额保护:通过并行化降低对高价模型的依赖,有效保护 API 配额
潜在局限
- 模型锁定:当前优化针对 Gemini Flash,其他 provider 兼容性待验证
- 任务独立性要求:仅适用于可并行化的独立任务,存在顺序依赖的场景无法受益
- 基础设施成本:多节点部署需维护额外服务器,小型任务可能得不偿失
- 调试复杂度:分布式执行增加日志追踪与故障定位难度
- Node.js 依赖:需本地 Node 运行时,对纯 Python 环境不够友好
适合人群
- 需批量处理 3+ 独立研究查询的知识工作者
- 执行多文档/多 URL 分析的自动化流程开发者
- 追求成本优化的 AI 应用架构师
- 具备基础 DevOps 能力、能维护多节点集群的技术团队
常规风险
- API 密钥泄露:
GEMINI_API_KEY环境变量管理不当可能导致密钥暴露 - 成本失控:虽单任务极便宜,但高并发下未设置
max_daily_spend可能导致意外账单 - 网络依赖:分布式节点间协调依赖网络稳定性,分区故障可能影响任务分发
- 模型行为差异:Gemini Flash 与高端模型输出质量可能存在偏差,关键任务需验证