📚 构建长期复利型知识基础设施的指南,详见 RAG 实战手册

ReLE 中文大模型能力评测

ReLE(chinese-llm-benchmark)是社区维护的中文大模型评测与排行榜项目,覆盖教育、医疗、金融、法律、推理等多个细分能力维度。

简介

ReLE(chinese-llm-benchmark)是一份持续更新的中文大模型能力评测与排行榜项目,涵盖教育、医疗、金融、法律、推理、语言理解、多模态等细分评测集合,面向研究者与工程团队提供可复用的评测与排行榜数据。

主要特性

  • 丰富的细分评测集与排行榜,包含多维度能力评分与 badcase 库。
  • 定期发布版本与 CHANGELOG,支持查看各项排行榜与历史变更。
  • 提供模型选型工具、在线可视化排行榜与相关数据导出。

使用场景

  • 学术或工程团队用于模型评测、比对与选型决策。
  • 教学/课程素材,用作 MLSys 或 LLM 相关课程的阅读和练习数据。
  • 数据分析与错误样本收集,用于改进模型和追踪常见缺陷。

技术特点

  • 基于 GitHub Markdown 的维护方式,条目易于通过 PR 更新与扩展。
  • 提供 leaderboard、leaderboard 数据与 badcase 可视化页面,便于快速定位问题样本。
  • 部分内容与站点(nonelinear.com)集成,便于在线展示和体验。

评论区

ReLE 中文大模型能力评测
资源信息
🌱 开源 📊 基准测试 📝 评估