详细介绍
Rhesis 是一个针对大语言模型(LLM)与智能体应用的开源测试平台与 SDK。开发者和产品团队可用自然语言描述期望行为与禁止项,Rhesis 自动生成大量测试场景(包含对抗性提示与多轮对话),并将这些测试运行在目标应用上,以发现幻觉、信息泄露或不符合策略的回应。平台同时提供可视化的结果审阅界面、SDK 与 CI 集成能力,便于跨职能团队协作定位与修复问题。
主要特性
- 自动化测试生成:基于用户需求自动生成单轮与多轮测试场景,覆盖对抗性与边界输入。
- LLM 驱动评估:使用 LLM 作为评估器对输出打分并判断是否违反规则。
- 团队协作流程:带注释、任务分配與审查功能,支持非技术成员参与测试定义与复查。
- 多种部署方式:提供托管服务与本地自托管(Docker)方案,支持 CI/CD 集成。
使用场景
- 在上线前对聊天机器人、RAG 系统或智能体应用进行全面回归与对抗测试。
- 将测试纳入 CI 流水线,自动阻止不合格模型版本进入生产环境。
- 合规与法律团队定义策略后,快速验证模型在真实场景下的合规性与鲁棒性。
技术特点
- 支持单轮和多轮(Penelope)测评,能够模拟真实用户对话链路。
- 提供丰富的评估指标库(如 RAGAS、DeepEval 等)与可视化报告。
- SDK 与 API 支持从 IDE 调用与脚本化测试,方便与现有开发与部署流程集成。
- 开源社区维护,采用易于商业集成的许可与模块化扩展设计。