Paimon 是一个为实时 Lakehouse 架构设计的表格式,支持流与批混合的存储与计算,能够与 Flink、Spark 等引擎协同工作。它提供事务语义、低延迟的写入路径以及高效的查询性能,适用于需要同时处理流与批数据的场景。Paimon 致力于减少流批一体化场景下的数据复杂度,通过表级别的元数据管理与高效写入策略来保证低延迟和一致性,非常适合实时分析、实时 ETL 以及需要快速数据可用性的业务场景。社区提供的工具链也有助于数据迁移与日常运维。
主要特性
- 实时与批处理统一:支持流式写入与批处理查询,简化实时数据管道设计。
- 事务与一致性:提供必要的原子性与隔离保障,支持版本控制。
- 多引擎兼容:与 Flink、Spark 等主流计算引擎无缝集成。
- 社区活跃:文档与示例齐全,适合生产环境部署。
使用场景
- 实时分析:在需要低延迟写入并保证查询一致性的场景下作为存储层。
- 数据湖升级:将传统数据湖升级为支持流批统一的 Lakehouse 存储格式。
技术特点
- 采用面向表的元数据与存储组织,优化写放大与读取性能。
- 提供工具链用于数据迁移与版本管理,便于运维和升级。