📚 构建长期复利型知识基础设施的指南,详见 RAG 实战手册

MLE-bench

用于评估 AI 代理在机器学习工程任务上表现的基准套件和工具集。

简介

MLE-bench 是一个由 OpenAI 提供的基准套件,用于评估 AI 代理在机器学习工程(MLE)任务中的端到端能力,包括数据准备、建模、提交评估与评分流程。该仓库包含数据准备脚本、评估与打分工具、示例 agent 与基线以及排行榜结果摘要。

主要特性

  • 覆盖 75 个来自 Kaggle 的竞赛任务,提供统一的数据准备与打分脚本。
  • 提供 lite 数据拆分以降低评估成本并加速试验。
  • 包含评分(grading)工具与自动化评估流水线,支持 JSONL/CSV 提交格式。
  • 提供基础镜像(mlebench-env)、示例 agent 与可复现的实验代码。

使用场景

  • 对比不同 AI 代理在机器学习工程任务(如图像分类、表格回归、序列到序列等)上的综合能力。
  • 在研究或工程中复现论文评估与排行榜,进行模型与 agent 的横向比较。
  • 构建自动化评估流水线,用于持续集成/基准测试。

技术特点

  • 以 Python 为主实现,使用 Kaggle API 下载并准备数据集;部分资源使用 Git-LFS 存储大文件。
  • 提供 Docker/Conda 环境与预构建镜像以保证可重复性。
  • 提供详细的实验脚本、分割(splits)与 grader,便于复现与扩展。

评论区

MLE-bench
资源信息
🌱 开源 📊 基准测试