简介
DataHub 是一个开源的数据目录与元数据平台,源自 LinkedIn 的实践,旨在通过实时元数据图、血缘分析和协作功能提升数据的可发现性與可管理性。DataHub 支持丰富的连接器与插件生态,便于在现代数据栈中采集并统一管理元数据。
主要特性
- 实时元数据图:以图数据库的方式表示数据资产与关系,支持实时更新与查询。
- 丰富连接器:内置对数据仓库、消息队列、仪表盘与管道工具的采集器。
- 仪表盘与可视化:提供 UI、Demo 与示例环境,便于团队快速上手。
- 社区与采纳:活跃社区与大量生产案例,支持扩展与企业部署。
使用场景
- 数据目录与自助分析:帮助数据科学家和分析师快速定位并理解数据资产。
- 组织治理:通过血缘、注释和权限管理支持合规性与审计需求。
- 元数据集成:作为平台中心的元数据层,连接存储、计算与展示工具。
技术特点
- 采用 Java、TypeScript、Python 等多语言实现,模块化设计适合企业级部署。
- 提供演示站点与快速部署方式(包括 Docker 与 Helm charts)。
- Apache 2.0 许可与广泛社区支持。