使用说明

核心用法

SOTA Tracker 提供五种灵活的数据接入方式：直接下载 JSON/CSV 静态文件；本地克隆后使用 SQLite 进行复杂 SQL 查询；通过 REST API 实时查询（支持分类筛选、模型对比、新鲜度检查）；作为 MCP 服务器集成到 Claude Code 工作流（需注意 Token 成本）；或嵌入到 Claude Code 的 CLAUDE.md 文件实现低成本静态查询。数据覆盖 LLM API、本地模型、代码模型、图像/视频/音频生成、嵌入模型等九大类别，每日自动从 LMArena（600万+人类投票）、Artificial Analysis 和 HuggingFace 抓取更新。

显著优点

权威数据源聚合：整合 LMArena Elo 排名、Artificial Analysis 质量基准、HuggingFace 趋势数据，提供比单一来源更全面的模型评估。多模态输出支持：不仅提供标准 JSON/CSV，还支持 SQLite 数据库直接查询，满足从简单查看到复杂数据分析的需求。过时模型预警：独特的 "Forbidden" 机制主动标记已过时模型并推荐替代方案，避免开发者误用 deprecated 模型。自动化工作流：通过 GitHub Actions 实现每日 6 点 UTC 自动更新，支持 systemd timer 本地定时同步，确保数据新鲜度。零配置快速启动：无需 API Key 即可获取基础数据，REST API 设计遵循 OpenAPI 规范，学习成本低。

潜在缺点与局限性

来源可靠性限制：项目由个人开发者维护（T3 来源），非官方组织背书，长期维护稳定性存在不确定性。外部依赖脆弱性：核心数据依赖 Playwright 抓取 LMArena 等第三方网站，目标网站结构变更或反爬策略调整可能导致抓取失败。数据时效性延迟：虽标榜"每日更新"，但相比实时 API 仍有 24 小时延迟，对于瞬息万变的 AI 领域可能错过最新模型发布。CORS 安全妥协：REST API 默认允许所有跨域请求（allow_origins=[""]），虽禁用了凭证携带，但在公开网络部署时仍需谨慎。MCP 成本问题*：动态查询模式 Token 消耗较高，官方推荐改用静态文件嵌入方式降低成本。

适合的目标群体

AI 应用开发者：需要对比 Claude、GPT、Gemini 等商业 API 性能价格比，或选择本地部署的 Qwen、Llama 版本。技术研究人员：跟踪 SOTA 进展，撰写论文时需要引用权威的模型排名数据。MLOps 工程师：构建自动化模型选型流水线，需要结构化数据支持决策。Claude Code 重度用户：希望在编码时快速查询"当前最佳代码模型是哪个"而不跳出编辑器。开源模型贡献者：需要了解同类模型的基准表现，定位自己模型的竞争力区间。

使用风险

性能风险：首次启动 REST API 或 MCP 服务器时，SQLite 数据库加载可能产生短暂延迟；高频查询建议启用缓存。依赖风险：Playwright 需要下载 Chromium 浏览器（约 100MB），在受限网络环境可能安装失败。合规风险：数据抓取虽遵守 robots.txt 且获得明确许可，但高频访问可能触发目标网站限流，建议自部署时调整抓取频率。数据准确性风险：自动抓取可能受网页渲染异常影响，关键业务决策前建议交叉验证原始数据源。安全风险：虽然代码本身无漏洞，但 T3 来源意味着供应链攻击风险（如开发者账号被盗发布恶意版本），生产环境使用建议锁定特定 Git commit 并审计代码变更。

安全解读

核心功能

SOTA Tracker 是面向AI开发者与研究者的开源模型追踪工具，核心定位是解决「模型迭代过快、难以跟踪当前最优」的痛点。项目每日自动从三大权威来源抓取数据：

LMArena (600万+人类投票Elo排名) —— 对话模型权威基准
Artificial Analysis —— 模型质量、定价、速度综合评测
HuggingFace —— 开源模型下载量与趋势数据

覆盖9大模型类别：云端LLM API (Gemini/Grok/Claude)、本地LLM (Llama/Qwen/DeepSeek)、代码专用模型、图像/视频/音频生成、嵌入模型等。

显著优点

1. 多形态数据消费：提供静态JSON/CSV下载、SQLite本地查询、REST API服务、MCP Server、以及专为Claude Code设计的CLAUDE.md自动嵌入——五种使用方式覆盖从脚本自动化到AI辅助编程的全场景。

2. 工程化成熟：GitHub Actions每日UTC 6点自动抓取与发布，Playwright应对动态网页，参数化SQL防注入，缓存回退机制保障数据源故障时的可用性。

3. 开发者体验优先：forbidden.json黑名单机制主动标记过时模型，避免用户误用；硬件配置本地化存储不上云；OpenCode/agents.md原生集成支持。

潜在局限

数据新鲜度非实时：每日更新频率对追新极客可能偏慢；依赖维护者抓取脚本的正确执行
数据源结构风险：LMArena等平台的页面结构变更可能导致抓取失效（已实现错误回退）
Playwright供应链：浏览器自动化需要下载Chromium二进制，存在额外依赖与潜在完整性风险

适合人群

AI应用开发者：快速选型「当前最佳」API模型
本地部署用户：追踪GGUF量化模型的最新进展
技术研究者：批量获取 benchmark 数据进行元分析
Claude Code/OpenCode 用户：通过CLAUDE.md/agents.md获得模型推荐的上下文增强

常规风险提示

网络依赖中等（多数据源只读API），建议配置systemd timer实现本地数据每日同步以降低对外部服务的实时依赖。

sota-tracker-mcp 内容

data文件夹

fetchers文件夹

migrations文件夹

scrapers文件夹

scripts文件夹

tests文件夹

utils文件夹

手动下载zip · 110.2 kB

aa_llm_latest.jsonapplication/json

请选择文件