📚 构建长期复利型知识基础设施的指南,详见 RAG 实战手册

Giskard OSS

一款开源的 AI 评估与测试框架,用于自动检测性能、偏差与安全问题。

简介

Giskard 是一个开源的模型评估与测试框架,帮助开发者自动检测 LLM 与传统机器学习模型中的性能、偏差与安全问题,覆盖从 RAG 应用到视觉模型的评估工具链。

主要特性

  • 自动化扫描(Scan):检测幻觉、注入、敏感信息泄露与鲁棒性问题。
  • RAGET:为 RAG 应用自动生成评估数据集并评测生成回答的各个组件。
  • 多模型与环境兼容:支持任意模型与自定义包装,可在本地、Colab 或 CI 环境运行。
  • 可视化与交互:提供 Web 界面、文档与示例以便调试与分享评估结果。

使用场景

  • 生产前安全审查:在部署前自动化检测潜在风险与有害输出。
  • 回归测试:在模型迭代中持续监控性能与公平性指标。
  • RAG 评估:生成并使用测试集评估检索与生成端的整体表现。

技术特点

  • 提供 CLI、Python API 与交互式 Notebook 示例,支持脚本化集成。
  • 活跃的版本更新与社区支持,丰富的文档与示例覆盖常见用例。
  • 采用模块化设计,便于扩展自定义检测规则与评估流程。

评论区

Giskard OSS
资源信息
作者 Giskard-AI
添加时间 2025-10-02
开源时间 2022-03-06
标签
开源 评估