📚 构建长期复利型知识基础设施的指南,详见 RAG 实战手册

DataHub

面向现代数据栈的数据发现与元数据平台,提供实时元数据图、目录、血缘与观察能力。

简介

DataHub 是一个开源的数据目录与元数据平台,源自 LinkedIn 的实践,旨在通过实时元数据图、血缘分析和协作功能提升数据的可发现性與可管理性。DataHub 支持丰富的连接器与插件生态,便于在现代数据栈中采集并统一管理元数据。

主要特性

  • 实时元数据图:以图数据库的方式表示数据资产与关系,支持实时更新与查询。
  • 丰富连接器:内置对数据仓库、消息队列、仪表盘与管道工具的采集器。
  • 仪表盘与可视化:提供 UI、Demo 与示例环境,便于团队快速上手。
  • 社区与采纳:活跃社区与大量生产案例,支持扩展与企业部署。

使用场景

  • 数据目录与自助分析:帮助数据科学家和分析师快速定位并理解数据资产。
  • 组织治理:通过血缘、注释和权限管理支持合规性与审计需求。
  • 元数据集成:作为平台中心的元数据层,连接存储、计算与展示工具。

技术特点

  • 采用 Java、TypeScript、Python 等多语言实现,模块化设计适合企业级部署。
  • 提供演示站点与快速部署方式(包括 Docker 与 Helm charts)。
  • Apache 2.0 许可与广泛社区支持。

评论区

DataHub
资源信息
🌱 开源 💾 数据 📱 应用