第十届中国开源年会,12月6-7日,北京, 查看详情

CellARC

一个用于生成、发布与加载 CellARC(基于元胞自动机任务)的开源数据集与工具链,支持 Hugging Face 快速下载与仿真可视化。

详细介绍

CellARC 是一个面向 ARC(Abstraction and Reasoning Corpus)风格的元胞自动机任务的数据集生成与加载工具链,项目作者将完整数据快照发布在 Hugging Face(例如 mireklzicar/cellarc_100k)。该库提供便捷的 EpisodeDatasetEpisodeDataLoader API,用于下载、缓存与批处理数据,并内置可视化工具方便重现样例与分析任务难度。

主要特性

  • 数据集生成与快照:支持从 Hugging Face Hub 下载预构建快照,并提供 100k 的主数据集与固定的 100 条子集用于快速迭代。
  • 仿真与可视化:内置 CA(Cellular Automaton)回放与 episode 卡片显示函数,方便检查生成规则与样例表现。
  • 可选生成栈:通过 cellarc[all] 启用基于 JAX/FLAX/CAX 的生成与模拟功能,支持更复杂的合成与采样流程。

使用场景

  • 机器学习与神经网络研究:作为元胞自动机任务的基准数据集用于模型训练与评估。
  • 算法测试与教材:用于教学、实验与基线对比,快速复现论文中的训练/评估流程。
  • 数据分析与可视化:研究数据分布、规则空间覆盖率与样例难度时的可靠工具。

技术特点

  • 轻量 Python API:EpisodeDataset.from_huggingfaceEpisodeDataLoader 支持按需下载与缓存,便于集成现有训练流水线。
  • 灵活的数据布局:支持 JSONL 与 Parquet 两种格式,提供 data_files.jsondataset_stats.json 以便快速枚举分片与大小。
  • 与主流工具链兼容:基于 PyPI 包结构发布,可通过 pip install cellarc 使用,完整生成/仿真功能在 Python 3.11+ 环境下通过额外依赖启用。
CellARC
资源信息
🌱 开源 💾 数据 🕹️ 模拟器 🏋️ 模型训练