第十届中国开源年会,12月6-7日,北京, 查看详情

Rhesis

一个面向 LLM 与智能体应用的开源测试平台与 SDK,用于自动生成测试场景并评估模型输出。

详细介绍

Rhesis 是一个针对大语言模型(LLM)与智能体应用的开源测试平台与 SDK。开发者和产品团队可用自然语言描述期望行为与禁止项,Rhesis 自动生成大量测试场景(包含对抗性提示与多轮对话),并将这些测试运行在目标应用上,以发现幻觉、信息泄露或不符合策略的回应。平台同时提供可视化的结果审阅界面、SDK 与 CI 集成能力,便于跨职能团队协作定位与修复问题。

主要特性

  • 自动化测试生成:基于用户需求自动生成单轮与多轮测试场景,覆盖对抗性与边界输入。
  • LLM 驱动评估:使用 LLM 作为评估器对输出打分并判断是否违反规则。
  • 团队协作流程:带注释、任务分配與审查功能,支持非技术成员参与测试定义与复查。
  • 多种部署方式:提供托管服务与本地自托管(Docker)方案,支持 CI/CD 集成。

使用场景

  • 在上线前对聊天机器人、RAG 系统或智能体应用进行全面回归与对抗测试。
  • 将测试纳入 CI 流水线,自动阻止不合格模型版本进入生产环境。
  • 合规与法律团队定义策略后,快速验证模型在真实场景下的合规性与鲁棒性。

技术特点

  • 支持单轮和多轮(Penelope)测评,能够模拟真实用户对话链路。
  • 提供丰富的评估指标库(如 RAGAS、DeepEval 等)与可视化报告。
  • SDK 与 API 支持从 IDE 调用与脚本化测试,方便与现有开发与部署流程集成。
  • 开源社区维护,采用易于商业集成的许可与模块化扩展设计。
Rhesis
资源信息
📝 评估 📚 检索增强生成 🛠️ 开发工具 🌱 开源