简介
MLE-bench 是一个由 OpenAI 提供的基准套件,用于评估 AI 代理在机器学习工程(MLE)任务中的端到端能力,包括数据准备、建模、提交评估与评分流程。该仓库包含数据准备脚本、评估与打分工具、示例 agent 与基线以及排行榜结果摘要。
主要特性
- 覆盖 75 个来自 Kaggle 的竞赛任务,提供统一的数据准备与打分脚本。
- 提供 lite 数据拆分以降低评估成本并加速试验。
- 包含评分(grading)工具与自动化评估流水线,支持 JSONL/CSV 提交格式。
- 提供基础镜像(mlebench-env)、示例 agent 与可复现的实验代码。
使用场景
- 对比不同 AI 代理在机器学习工程任务(如图像分类、表格回归、序列到序列等)上的综合能力。
- 在研究或工程中复现论文评估与排行榜,进行模型与 agent 的横向比较。
- 构建自动化评估流水线,用于持续集成/基准测试。
技术特点
- 以 Python 为主实现,使用 Kaggle API 下载并准备数据集;部分资源使用 Git-LFS 存储大文件。
- 提供 Docker/Conda 环境与预构建镜像以保证可重复性。
- 提供详细的实验脚本、分割(splits)与 grader,便于复现与扩展。