Apache Hudi

面向大数据的存储与增量处理框架，支持 upsert、delete 与增量消费，适用于实时与批量分析场景。

作者: Apache

开源于: 2016-12-14

Apache Hudi 是一个用于大数据场景的存储与增量处理框架，提供对数据的 upsert、delete 以及增量消费能力，帮助构建实时、可变数据的分析管道。它通过提供索引、写入路径优化和版本管理，降低数据处理延迟并提高存储效率。Hudi 在处理变更数据和频繁更新的场景中表现优秀，广泛应用于日志聚合、用户行为数据以及需要精细化数据修正的场景中。社区提供成熟的运维实践和监控集成，便于在生产环境中进行大规模部署与健康检查。

主要特性

增量处理与 upsert 支持：允许使用合并写入来处理变更数据（CDC），适合需要频繁更新的表。
版本管理与索引：内置索引与元数据管理，提高读取效率并支持时间旅行查询。
多引擎支持：与 Spark、Presto、Trino 等分析引擎协同工作。
丰富的社区生态与生产案例：提供成熟的部署与运维模式。

使用场景

实时 ETL 与 CDC：在需要实时同步变更并提供分析查询的场景中作为数据层。
数据治理与合规：借助版本历史和元数据管理实现可追溯的数据流程。

技术特点

专注于写优化与索引策略，减少写放大并提升查询性能。
提供工具和文档来支持从传统数据湖或仓库迁移到 Hudi 的过程。

Apache Hudi

主要特性

使用场景

技术特点

资源信息

相关资源

Apache Doris

Paimon

Gravitino