📚 构建长期复利型知识基础设施的指南,详见 RAG 实战手册

Terminal-Bench

用于在真实终端环境中评估和基准测试 AI 智能体的工具与任务集合。

简介

Terminal-Bench 是一个用于在真实终端环境下测试 AI 智能体的开源基准套件与执行框架,覆盖从编译、训练到服务部署的一系列端到端任务,便于评估智能体在系统级、工程实践类场景的能力。

主要特性

  • 提供可复现的任务数据集与测试脚本(位于仓库的 tasks 目录)。
  • 提供执行 harness,将模型接入受控的终端沙箱并支持并发评估与排行榜提交。
  • 丰富的文档与快速上手指南(https://www.tbench.ai/docs)。
  • 支持多种适配器与贡献流程,便于扩展新任务与插件。

使用场景

  • 评估 LLM 智能体处理真实系统级任务(如编译、安装、配置、训练)的能力。
  • 在研究或产品化过程中进行回归测试与容量评测。
  • 构建和验证智能体执行复杂工程任务的流水线与自动化流程。

技术特点

  • 采用 Python 与 Shell 混合实现,提供 CLI(tb)用于运行与管理评测。
  • 支持 Docker 沙箱与虚拟环境隔离,保障测试可复现性与安全性。
  • 任务与适配器机制使得扩展新评测集与适配不同模型变得简单。

评论区

Terminal-Bench
资源信息
作者 Terminal-Bench 团队
添加时间 2025-09-30
开源时间 2025-01-17
标签
开源 基准测试 评估