详细介绍
CellARC 是一个面向 ARC(Abstraction and Reasoning Corpus)风格的元胞自动机任务的数据集生成与加载工具链,项目作者将完整数据快照发布在 Hugging Face(例如 mireklzicar/cellarc_100k)。该库提供便捷的 EpisodeDataset 与 EpisodeDataLoader API,用于下载、缓存与批处理数据,并内置可视化工具方便重现样例与分析任务难度。
主要特性
- 数据集生成与快照:支持从 Hugging Face Hub 下载预构建快照,并提供 100k 的主数据集与固定的 100 条子集用于快速迭代。
- 仿真与可视化:内置 CA(Cellular Automaton)回放与 episode 卡片显示函数,方便检查生成规则与样例表现。
- 可选生成栈:通过
cellarc[all]启用基于 JAX/FLAX/CAX 的生成与模拟功能,支持更复杂的合成与采样流程。
使用场景
- 机器学习与神经网络研究:作为元胞自动机任务的基准数据集用于模型训练与评估。
- 算法测试与教材:用于教学、实验与基线对比,快速复现论文中的训练/评估流程。
- 数据分析与可视化:研究数据分布、规则空间覆盖率与样例难度时的可靠工具。
技术特点
- 轻量 Python API:
EpisodeDataset.from_huggingface、EpisodeDataLoader支持按需下载与缓存,便于集成现有训练流水线。 - 灵活的数据布局:支持 JSONL 与 Parquet 两种格式,提供
data_files.json与dataset_stats.json以便快速枚举分片与大小。 - 与主流工具链兼容:基于 PyPI 包结构发布,可通过
pip install cellarc使用,完整生成/仿真功能在 Python 3.11+ 环境下通过额外依赖启用。