简介
Terminal-Bench 是一个用于在真实终端环境下测试 AI 智能体的开源基准套件与执行框架,覆盖从编译、训练到服务部署的一系列端到端任务,便于评估智能体在系统级、工程实践类场景的能力。
主要特性
- 提供可复现的任务数据集与测试脚本(位于仓库的
tasks
目录)。 - 提供执行 harness,将模型接入受控的终端沙箱并支持并发评估与排行榜提交。
- 丰富的文档与快速上手指南(https://www.tbench.ai/docs)。
- 支持多种适配器与贡献流程,便于扩展新任务与插件。
使用场景
- 评估 LLM 智能体处理真实系统级任务(如编译、安装、配置、训练)的能力。
- 在研究或产品化过程中进行回归测试与容量评测。
- 构建和验证智能体执行复杂工程任务的流水线与自动化流程。
技术特点
- 采用 Python 与 Shell 混合实现,提供 CLI(
tb
)用于运行与管理评测。 - 支持 Docker 沙箱与虚拟环境隔离,保障测试可复现性与安全性。
- 任务与适配器机制使得扩展新评测集与适配不同模型变得简单。