📚 构建长期复利型知识基础设施的指南,详见 RAG 实战手册

LongBench

LongBench 是一个面向长上下文理解与推理的双语多任务基准,覆盖长文档、多文档与代码仓库理解等场景,用于评估 LLM 在长上下文下的能力。

简介

LongBench v2(及 v1)提供大规模长上下文多任务数据集与评测脚本,旨在考察模型在真实世界长上下文问题上的理解与推理能力,数据长度从数千到百万词不等。

主要特性

  • 多任务与多长度:包括单文档、多文档、长上下文学习、长对话与代码仓库理解等任务类型。
  • 可复现的数据与评测脚本:提供 Hugging Face 数据集入口与评测工具链。
  • 提供 leaderboard 与论文引用,便于学术比较与跟踪进展。

使用场景

  • 长上下文能力评估与模型选择。
  • 研究长文本理解、检索增强(RAG)与推理性能提升方法。
  • 构建长期记忆或长上下文服务时的基准测试与回归检测。

技术特点

  • 数据统一为多选题格式,便于客观评分与统计分析。
  • 支持部署评测流水线(示例使用 vLLM 部署与脚本化评测)。
  • 提供论文引用与官网(frontmatter 中的 link 可直接访问 leaderboard 与文档)。

评论区

LongBench
资源信息
🌱 开源 📊 基准测试