简介
Dask 是一个用于 Python 的并行计算框架,提供与 NumPy、Pandas 和 Scikit-learn 兼容的延迟计算与分布式任务调度能力,方便将单机代码扩展到集群环境。它在数据处理、科学计算与模型训练的预处理阶段非常常见。
主要特性
- 延迟与分布式计算:通过任务图分解计算并在集群上并行执行。
- 与 PyData 生态兼容:与 NumPy、Pandas、Scikit-learn 等库协同工作。
- 可伸缩性:支持从单机到大规模集群的无缝扩展。
使用场景
- 大规模数据处理与特征工程。
- 分布式训练数据准备与批处理作业。
- 科学计算与并行分析任务。
- BSD-3-Clause — 适合大多数开源与商业用途。