简介
LongBench v2(及 v1)提供大规模长上下文多任务数据集与评测脚本,旨在考察模型在真实世界长上下文问题上的理解与推理能力,数据长度从数千到百万词不等。
主要特性
- 多任务与多长度:包括单文档、多文档、长上下文学习、长对话与代码仓库理解等任务类型。
- 可复现的数据与评测脚本:提供 Hugging Face 数据集入口与评测工具链。
- 提供 leaderboard 与论文引用,便于学术比较与跟踪进展。
使用场景
- 长上下文能力评估与模型选择。
- 研究长文本理解、检索增强(RAG)与推理性能提升方法。
- 构建长期记忆或长上下文服务时的基准测试与回归检测。
技术特点
- 数据统一为多选题格式,便于客观评分与统计分析。
- 支持部署评测流水线(示例使用 vLLM 部署与脚本化评测)。
- 提供论文引用与官网(frontmatter 中的 link 可直接访问 leaderboard 与文档)。