sota-tracker-mcp

🏆 AI模型权威排名实时追踪数据库

聚合LMArena等权威数据源,每日自动更新SOTA AI模型排名,提供多模态接入方式,帮助开发者精准选用最优模型。

收藏
3.8k
安装
962
版本
v1.0.0
CLS 安全性认证2026-05-18
点击查看完整报告 >

使用说明

核心用法

SOTA Tracker 提供五种灵活的数据接入方式:直接下载 JSON/CSV 静态文件;本地克隆后使用 SQLite 进行复杂 SQL 查询;通过 REST API 实时查询(支持分类筛选、模型对比、新鲜度检查);作为 MCP 服务器集成到 Claude Code 工作流(需注意 Token 成本);或嵌入到 Claude Code 的 CLAUDE.md 文件实现低成本静态查询。数据覆盖 LLM API、本地模型、代码模型、图像/视频/音频生成、嵌入模型等九大类别,每日自动从 LMArena(600万+人类投票)、Artificial Analysis 和 HuggingFace 抓取更新。

显著优点

权威数据源聚合:整合 LMArena Elo 排名、Artificial Analysis 质量基准、HuggingFace 趋势数据,提供比单一来源更全面的模型评估。多模态输出支持:不仅提供标准 JSON/CSV,还支持 SQLite 数据库直接查询,满足从简单查看到复杂数据分析的需求。过时模型预警:独特的 "Forbidden" 机制主动标记已过时模型并推荐替代方案,避免开发者误用 deprecated 模型。自动化工作流:通过 GitHub Actions 实现每日 6 点 UTC 自动更新,支持 systemd timer 本地定时同步,确保数据新鲜度。零配置快速启动:无需 API Key 即可获取基础数据,REST API 设计遵循 OpenAPI 规范,学习成本低。

潜在缺点与局限性

来源可靠性限制:项目由个人开发者维护(T3 来源),非官方组织背书,长期维护稳定性存在不确定性。外部依赖脆弱性:核心数据依赖 Playwright 抓取 LMArena 等第三方网站,目标网站结构变更或反爬策略调整可能导致抓取失败。数据时效性延迟:虽标榜"每日更新",但相比实时 API 仍有 24 小时延迟,对于瞬息万变的 AI 领域可能错过最新模型发布。CORS 安全妥协:REST API 默认允许所有跨域请求(allow_origins=[""]),虽禁用了凭证携带,但在公开网络部署时仍需谨慎。MCP 成本问题*:动态查询模式 Token 消耗较高,官方推荐改用静态文件嵌入方式降低成本。

适合的目标群体

AI 应用开发者:需要对比 Claude、GPT、Gemini 等商业 API 性能价格比,或选择本地部署的 Qwen、Llama 版本。技术研究人员:跟踪 SOTA 进展,撰写论文时需要引用权威的模型排名数据。MLOps 工程师:构建自动化模型选型流水线,需要结构化数据支持决策。Claude Code 重度用户:希望在编码时快速查询"当前最佳代码模型是哪个"而不跳出编辑器。开源模型贡献者:需要了解同类模型的基准表现,定位自己模型的竞争力区间。

使用风险

性能风险:首次启动 REST API 或 MCP 服务器时,SQLite 数据库加载可能产生短暂延迟;高频查询建议启用缓存。依赖风险:Playwright 需要下载 Chromium 浏览器(约 100MB),在受限网络环境可能安装失败。合规风险:数据抓取虽遵守 robots.txt 且获得明确许可,但高频访问可能触发目标网站限流,建议自部署时调整抓取频率。数据准确性风险:自动抓取可能受网页渲染异常影响,关键业务决策前建议交叉验证原始数据源。安全风险:虽然代码本身无漏洞,但 T3 来源意味着供应链攻击风险(如开发者账号被盗发布恶意版本),生产环境使用建议锁定特定 Git commit 并审计代码变更。

安全解读

核心功能

SOTA Tracker 是面向AI开发者与研究者的开源模型追踪工具,核心定位是解决「模型迭代过快、难以跟踪当前最优」的痛点。项目每日自动从三大权威来源抓取数据:

  • LMArena (600万+人类投票Elo排名) —— 对话模型权威基准
  • Artificial Analysis —— 模型质量、定价、速度综合评测
  • HuggingFace —— 开源模型下载量与趋势数据

覆盖9大模型类别:云端LLM API (Gemini/Grok/Claude)、本地LLM (Llama/Qwen/DeepSeek)、代码专用模型、图像/视频/音频生成、嵌入模型等。

显著优点

1. 多形态数据消费:提供静态JSON/CSV下载、SQLite本地查询、REST API服务、MCP Server、以及专为Claude Code设计的CLAUDE.md自动嵌入——五种使用方式覆盖从脚本自动化到AI辅助编程的全场景。

2. 工程化成熟:GitHub Actions每日UTC 6点自动抓取与发布,Playwright应对动态网页,参数化SQL防注入,缓存回退机制保障数据源故障时的可用性。

3. 开发者体验优先forbidden.json黑名单机制主动标记过时模型,避免用户误用;硬件配置本地化存储不上云;OpenCode/agents.md原生集成支持。

潜在局限

  • 数据新鲜度非实时:每日更新频率对追新极客可能偏慢;依赖维护者抓取脚本的正确执行
  • 数据源结构风险:LMArena等平台的页面结构变更可能导致抓取失效(已实现错误回退)
  • Playwright供应链:浏览器自动化需要下载Chromium二进制,存在额外依赖与潜在完整性风险

适合人群

  • AI应用开发者:快速选型「当前最佳」API模型
  • 本地部署用户:追踪GGUF量化模型的最新进展
  • 技术研究者:批量获取 benchmark 数据进行元分析
  • Claude Code/OpenCode 用户:通过CLAUDE.md/agents.md获得模型推荐的上下文增强

常规风险提示

网络依赖中等(多数据源只读API),建议配置systemd timer实现本地数据每日同步以降低对外部服务的实时依赖。

sota-tracker-mcp 内容

data文件夹
fetchers文件夹
migrations文件夹
scrapers文件夹
scripts文件夹
tests文件夹
utils文件夹
手动下载zip · 110.2 kB
aa_llm_latest.jsonapplication/json
请选择文件