简介
ReLE(chinese-llm-benchmark)是一份持续更新的中文大模型能力评测与排行榜项目,涵盖教育、医疗、金融、法律、推理、语言理解、多模态等细分评测集合,面向研究者与工程团队提供可复用的评测与排行榜数据。
主要特性
- 丰富的细分评测集与排行榜,包含多维度能力评分与 badcase 库。
- 定期发布版本与 CHANGELOG,支持查看各项排行榜与历史变更。
- 提供模型选型工具、在线可视化排行榜与相关数据导出。
使用场景
- 学术或工程团队用于模型评测、比对与选型决策。
- 教学/课程素材,用作 MLSys 或 LLM 相关课程的阅读和练习数据。
- 数据分析与错误样本收集,用于改进模型和追踪常见缺陷。
技术特点
- 基于 GitHub Markdown 的维护方式,条目易于通过 PR 更新与扩展。
- 提供 leaderboard、leaderboard 数据与 badcase 可视化页面,便于快速定位问题样本。
- 部分内容与站点(nonelinear.com)集成,便于在线展示和体验。