Gravitino 是一个面向大规模数据与 AI 场景的元数据湖解决方案,提供统一的元数据模型、跨区域的联邦查询和治理能力。它专注于将多源的元数据(如表、模型、特征、数据血缘和模型元信息)统一管理,以支持数据发现、审计、访问控制以及面向 AI 的资产管理。项目同时关注 AI 资产(模型、特征库等)的可追溯性,支持在组织内部建立一致的元数据模型与权限策略,帮助团队减少重复工作并提升模型复用效率。Gravitino 的设计适合在多云、多区域的企业级环境中部署,能够与现有数据平台和查询引擎协作,为数据工程师和 AI 团队提供集中化的元数据操作与治理接口。
主要特性
- 统一元数据模型:将不同存储与服务中的元数据抽象为统一模型,便于检索与治理。
- 联邦与多区域支持:原生支持多区域部署与跨域同步,适用于全球化架构。
- 数据治理与审计:内建访问控制、审计日志与策略机制,满足合规与安全需求。
- 多引擎兼容:提供与 Trino、Spark 等查询引擎的无缝集成,并支持 Iceberg 等表格式的目录服务。
使用场景
- 元数据统一门户:为企业提供跨湖、跨仓库的元数据搜索与管理入口,帮助数据工程师与数据科学家发现资产。
- AI 资产管理:管理模型、特征与数据集的血缘与版本,支持可重复的机器学习生命周期管理。
- 多区域同步:在多云/多区域环境中保持元数据一致性与策略同步。
技术特点
- 基于可扩展的服务设计,支持高并发的元数据查询与变更流。
- 提供丰富的连接器用于采集各类元数据源(数据库、对象存储、表格式仓库等)。
- 文档与示例完善,提供 Docker Compose playground 便于快速试用。