📚 构建长期复利型知识基础设施的指南,详见 RAG 实战手册

Gravitino

高性能、地理分布式并支持联邦的元数据湖,用于管理数据与 AI 资产的统一元数据访问与治理。

Gravitino 是一个面向大规模数据与 AI 场景的元数据湖解决方案,提供统一的元数据模型、跨区域的联邦查询和治理能力。它专注于将多源的元数据(如表、模型、特征、数据血缘和模型元信息)统一管理,以支持数据发现、审计、访问控制以及面向 AI 的资产管理。项目同时关注 AI 资产(模型、特征库等)的可追溯性,支持在组织内部建立一致的元数据模型与权限策略,帮助团队减少重复工作并提升模型复用效率。Gravitino 的设计适合在多云、多区域的企业级环境中部署,能够与现有数据平台和查询引擎协作,为数据工程师和 AI 团队提供集中化的元数据操作与治理接口。

主要特性

  • 统一元数据模型:将不同存储与服务中的元数据抽象为统一模型,便于检索与治理。
  • 联邦与多区域支持:原生支持多区域部署与跨域同步,适用于全球化架构。
  • 数据治理与审计:内建访问控制、审计日志与策略机制,满足合规与安全需求。
  • 多引擎兼容:提供与 Trino、Spark 等查询引擎的无缝集成,并支持 Iceberg 等表格式的目录服务。

使用场景

  • 元数据统一门户:为企业提供跨湖、跨仓库的元数据搜索与管理入口,帮助数据工程师与数据科学家发现资产。
  • AI 资产管理:管理模型、特征与数据集的血缘与版本,支持可重复的机器学习生命周期管理。
  • 多区域同步:在多云/多区域环境中保持元数据一致性与策略同步。

技术特点

  • 基于可扩展的服务设计,支持高并发的元数据查询与变更流。
  • 提供丰富的连接器用于采集各类元数据源(数据库、对象存储、表格式仓库等)。
  • 文档与示例完善,提供 Docker Compose playground 便于快速试用。

评论区

Gravitino
资源信息
🌱 开源 💾 数据 🔗 连接器