kaggle

🏆 Kaggle全栈数据科学工作站

Kaggle官方生态完整集成方案,支持竞赛参与、数据集/模型管理、徽章自动化获取,为数据科学家提供一站式ML工程能力。

收藏
17.5k
安装
3.7k
版本
v1.0.1
CLS 安全性认证2026-05-03
点击查看完整报告 >

使用说明

核心用法

Kaggle Skill 是一个面向数据科学和机器学习工程的综合集成工具,提供四大核心模块协同工作:

1. Registration(注册模块):自动化完成 Kaggle 账户设置与 API 凭证配置,支持三种凭证类型(KAGGLE_USERNAME、KAGGLE_KEY、KAGGLE_API_TOKEN)的统一管理和安全存储。

2. Comp-Report(竞赛报告):通过 Python API 获取竞赛元数据,结合 Playwright 进行 SPA 内容抓取,生成包含问题描述、评估指标、排行榜和解决方案的综合性竞赛 landscape 报告。

3. KLLM(核心交互模块):提供四种 Kaggle 交互方式——kagglehub(Python SDK 快速下载)、kaggle-cli(完整工作流脚本)、MCP Server(AI Agent 集成)、Kaggle UI(账户管理),覆盖数据集/模型下载、笔记本执行、竞赛提交、资源发布等全场景。

4. Badge-Collector(徽章收集器):系统化自动化获取约 38 个 Kaggle 徽章,分 5 个阶段执行(Instant API、Competition、Pipeline、Browser、Streaks),支持进度持久化和断点续传。

显著优点

  • 全栈覆盖:从账户注册到竞赛夺冠的完整数据科学生命周期支持
  • 多模式交互:灵活适配不同技术栈和使用场景(Python/CLI/Browser/Agent)
  • 安全优先设计:凭证掩码显示、文件权限 600、资源默认私有、API 速率限制
  • 自动化能力:徽章收集和竞赛报告大幅减少重复性手动操作
  • 免费算力利用:无缝集成 Kaggle Kernel Backend 的免费 GPU/TPU 资源

潜在缺点与局限性

  • 依赖官方生态:kagglehub v0.4.3 存在 dataset_load()() 损坏等已知问题,需使用替代方案
  • 竞赛规则限制:Phase 2 竞赛提交需用户先在网页端手动接受竞赛规则,无法完全自动化
  • Playwright 可选依赖:Phase 4 浏览器自动化需要额外安装 playwright,增加环境复杂度
  • 个人开发者维护:非 Kaggle/Google 官方项目,长期维护稳定性存在不确定性
  • 网络环境要求:需稳定访问 Kaggle 官方 API 和 Google Cloud Storage

适合的目标群体

  • Kaggle 竞赛参与者:需要系统化追踪竞赛动态、快速提交方案的数据科学家
  • ML 工程师:需要批量下载预训练模型、数据集进行迁移学习或基准测试
  • 教育机构/学生:利用免费 GPU/TPU 资源进行机器学习课程实践和作业提交
  • 自动化爱好者:希望系统化获取 Kaggle 徽章、建立技术影响力档案的开发者
  • AI Agent 开发者:需要通过 MCP Server 将 Kaggle 能力集成到自主代理系统中

使用风险

  • 凭证泄露风险:虽然已采取掩码和权限控制,但 .envkaggle.json 的本地存储仍需用户严格管理
  • 资源创建可见性:虽然默认私有,但误操作可能导致敏感数据集/模型意外公开
  • API 限流影响:大规模批量操作可能触发 Kaggle API 速率限制,影响工作流连续性
  • 竞赛合规性:自动化提交需确保符合各竞赛的具体规则,避免成绩被取消
  • 依赖更新滞后:官方 SDK 更新可能导致 Skill 脚本出现兼容性问题,需关注版本适配

安全解读

核心功能

Kaggle Skill 是面向数据科学与机器学习竞赛平台 Kaggle 的全功能集成工具,提供四大模块协同工作:

1. 注册管理(Registration):自动化账户创建与 API 凭证配置,支持 KAGGLE_USERNAMEKAGGLE_KEYKAGGLE_API_TOKEN 三种凭证类型,自动写入 ~/.kaggle/kaggle.json 并设置 600 权限保护。

2. 竞赛报告(Comp-Report):通过 Kaggle API + Playwright 浏览器自动化,生成包含竞赛列表、排行榜、数据集、Notebook 及问题陈述的综合报告,支持 30 天回溯与结构化输出。

3. 核心交互(KLLM):提供四层交互方式:

  • kagglehub:Python SDK 快速下载数据集/模型
  • kaggle-cli:完整命令行工作流(竞赛提交、Notebook 执行、资源发布)
  • MCP Server:AI Agent 集成端点
  • Kaggle UI:账户验证与手动操作

4. 徽章收集(Badge-Collector):系统化自动获取 ~38 个可自动化徽章,分 5 阶段执行(Instant API → Competition → Pipeline → Browser → Streaks),支持干运行与进度追踪。

显著优点

  • 生态完整性:覆盖 Kaggle 全生命周期,从账户注册到竞赛夺冠、从数据探索到模型发布
  • 多模态交互:Python API、CLI、MCP、浏览器自动化四层能力,适配不同场景
  • 安全设计:凭证文件强制 600 权限,环境变量隔离敏感信息,无硬编码密钥
  • 开源可信:MIT 许可证,GitHub 活跃维护,代码结构清晰(45 文件/6594 行)

潜在局限

  • 凭证依赖重:需配置 3 类 API 凭证,新手配置门槛较高
  • Playwright 可选依赖:浏览器徽章功能需额外安装 Playwright,增加环境复杂度
  • 已知 API 问题dataset_load() 在 kagglehub v0.4.3 损坏,需降级使用 dataset_download()
  • 竞赛数据集 403:部分竞赛关联数据集需使用独立副本

适合人群

  • 数据科学竞赛参与者(Kaggle Competitions)
  • 需要批量下载 Kaggle 数据集/预训练模型的研究者
  • 希望自动化 Kaggle 徽章收集的进阶用户
  • 构建 ML Pipeline 需集成 Kaggle 资源的开发者

常规风险

| 风险项 | 等级 | 说明 |
|--------|------|------|
| 凭证文件读写 | Low | 功能必需,已实施 chmod 600 保护 |
| Subprocess 调用 CLI | Low | 调用官方 kaggle 工具,参数可控 |
| Playwright 浏览器自动化 | Info | 可选功能,headless 模式运行 |
| 网络依赖 | 中 | 需访问 api.kaggle.com、storage.googleapis.com |

安全建议:定期轮换 API Key(3-6 个月),优先使用 Scoped Token(KGAT_前缀),运行 network_check.sh 确认企业网络可达性。

kaggle 内容

modules文件夹
badge-collector文件夹
references文件夹
scripts文件夹
templates文件夹
comp-report文件夹
references文件夹
scripts文件夹
kllm文件夹
references文件夹
scripts文件夹
registration文件夹
references文件夹
scripts文件夹
shared文件夹
手动下载zip · 77.1 kB
badge-catalog.mdtext/markdown
请选择文件