详细介绍
CoTyle 是由 Kuaishou Kolors 团队开源的图像生成项目,提出了“code-to-style”(数值代码到风格)任务:通过训练离散的风格码本,将每个数值代码映射为稳定且可复现的视觉风格,并以此条件化图像生成模型。项目目标是在无需复杂参考图像或长提示的情况下,以单一数值代码控制图像的整体风格一致性与多样性。
主要特性
- 训练并提供离散风格码本,便于风格表达与采样。
- 将风格码作为条件输入到文本到图像(T2I)扩散模型,实现风格一致的生成。
- 提供批量与单样本的推理脚本、Gradio 演示与公开权重,便于复现与二次开发。
使用场景
CoTyle 适用于需要确定性风格控制的创意生成场景,例如批量生成同一视觉风格的素材、为产品或插画库快速构建统一风格样本,以及科研中研究风格表示与生成一致性的问题。对于设计师与研究人员,CoTyle 可以作为探索风格空间与自动化素材生产的工具。
技术特点
项目基于离散风格码本与扩散模型的组合:先从图像集合学习风格离散嵌入,然后训练自回归模型以建模风格码分布,最终将生成的数值代码映射到扩散模型中进行风格条件化生成。实现上依赖于现代扩散框架与训练流水线,并提供推理加速选项以平衡速度与质量。