预训练：让模型“懂世界”的阶段

只有理解了预训练，才能真正明白大模型“聪明”的底层逻辑。

预训练（Pre-training, Pre-training）是大语言模型（LLM, Large Language Model）能力的根基，它决定了模型对语言、世界知识、逻辑推理、写作风格等最底层能力的上限。

一句话总结：

预训练 = 在海量文本上学习语言统计规律，让模型具备通用能力。

为什么需要预训练？

在正式介绍预训练的必要性前，需要明确：你不能直接教模型“怎么回答问题”，因为模型连最基本的语言规律都不知道。

预训练阶段的核心目标，是为模型建立如下基础能力：

通过上述能力的积累，预训练后的模型才有可能成为： 能读、能写、能推理、能生成 的基础智能体。

下面介绍预训练的核心任务。

预训练的本质任务是：预测下一个 token。

例如，给定如下输入：

北京是中国的首都，它位于……

模型的任务是预测下一个最有可能的 token（比如“华北”或“北方”）。

经过数十亿次这样的迭代，模型逐步学会了语言的统计规律和表达模式。

为了让模型具备广泛的知识和能力，预训练通常需要极其庞大的数据集。下表展示了主流大模型的预训练数据规模与来源：

这是相关数据的对比表：

表 1: 主流大模型预训练数据规模与来源

可以看到：

大模型的“聪明程度”高度依赖训练数据的质量和多样性。

从工程实现角度，预训练流程涉及多个关键环节。下方流程图直观展示了整个 pipeline：

每一个环节都非常关键：

如果你有云原生工程背景，对分布式训练、GPU 调度、Checkpoint 等内容会有天然理解优势。

大型模型的预训练过程极为消耗资源，主要体现在：

但这些投入带来的成果是值得的：

预训练模型 = 所有下游能力的基础。

预训练阶段输出的基础模型，具备如下能力：

因此，预训练后的模型通常“聪明但不听话”。下一阶段就是 微调（Fine-tuning, Fine-tuning） 和 RLHF 对齐（Reinforcement Learning from Human Feedback, RLHF）。

预训练阶段为大语言模型打下了坚实的能力基础。只有经过大规模、高质量数据的预训练，模型才能具备理解、推理和生成的通用智能。后续的微调和对齐，才是在此基础上的“锦上添花”。