草稿
词汇表
AI 术语不只是“名词解释”,更是开发者理解智能世界的钥匙。用工程师视角,快速掌握核心概念与应用场景。
该词汇表用开发者熟悉的类比来解释这些 AI 概念,每个解释都简短直观,并说明应用价值。
神经网络相关概念
- 神经网络(Neural Network):像一个由无数"函数节点"组成的计算管道,输入数据逐层转换成结果。应用:图像识别、语音识别。
- 神经元(Neuron):神经网络中的最小计算单元,类似代码里的函数调用。应用:决定输入数据的某个特征是否重要。
- 深度神经网络(Deep Neural Network, DNN):层数很多的神经网络,像多层微服务串联。应用:处理复杂任务如自动驾驶。
- 感知机(Perceptron):最早的神经网络模型,像单层 if-else 判别器。应用:简单分类。
模型训练与优化
- 动量(Momentum):优化训练时的加速度,避免模型震荡,像 CI/CD 部署的缓存加速。应用:更快收敛模型。
- 梯度(Gradient):指示模型该往哪个方向优化,像监控告警里的趋势箭头。应用:指导权重更新。
- 梯度下降(Gradient Descent):用梯度一步步优化模型,像通过迭代修复 Bug。应用:训练大部分神经网络。
- 梯度裁剪(Gradient Clipping):限制梯度过大,避免训练爆炸,像给容器设 CPU 限额。应用:保持训练稳定。
- 正则化技术(Regularization):防止模型过于复杂,像 Kubernetes 里限制 Pod 的资源。应用:提升泛化能力。
- 权重(Weight):模型中可调参数,像配置文件里的调优项。应用:决定模型预测结果。
- 初始权重(Initial Weight):训练开始前的参数值,像系统的默认配置。应用:影响训练速度与结果。
- 过拟合(Overfitting):模型学到太多"训练集细节",像写死特定输入的 if-else。应用:导致泛化差。
- 欠拟合(Underfitting):模型太简单,没学到关键规律,像用正则表达式处理复杂 API。应用:预测不准。
- 归一化(Normalization):把输入数据缩放到统一范围,像统一 API 请求格式。应用:加快训练收敛。
- 训练(Training):用数据不断调整模型参数的过程,像教学生做题直到掌握规律。应用:图像识别模型在数百万张图片上训练。
- 调参(Hyperparameter Tuning):指调整模型中的超参数(不是模型训练自动学到的参数,而是人工设定的配置),比如学习率、批次大小、层数。就像部署服务时要配置 CPU 核数、缓存大小、线程池数量,这些设置会影响性能。应用:通过调参可以让模型收敛更快、准确率更高,比如在训练推荐系统时找到最佳学习率组合。
数据处理与特征工程
- 张量(Tensor):多维数组,类似 Kubernetes 里的 YAML,统一格式承载各种数据。应用:AI 框架的数据标准。
- 特征(Feature):描述数据的关键属性,像数据库表里的字段,用于训练模型。应用:用"用户年龄、浏览记录"预测购买行为。
- 特征提取器(Feature Extractor):自动挑选关键特征,像日志解析器提取关键信息。应用:图像/文本分析。
机器学习基础
- 机器学习(Machine Learning):让计算机通过数据"自学"模式,而不是写死规则,像垃圾邮件过滤器通过大量邮件样本学会区分。应用:推荐系统、风控检测。
- 回归(Regression):一种预测连续数值的模型方法,像根据历史温度预测明天天气的具体温度值。应用:房价预测、销量预测。
- 聚类(Clustering):无监督学习的一种,把相似的数据自动分组,像电商把用户分成"爱买数码"“爱买美妆”。应用:客户分群、异常检测。
- 二分类模型(Binary Classification Model):只能输出两种结果,像 API 返回 true/false。应用:垃圾邮件识别。
- 遗传算法(Genetic Algorithm):模仿生物进化的优化方法,用"选择、交叉、变异"不断迭代,像写代码时自动跑不同参数组合找最优解。应用:自动调参、路径规划。
深度学习模型架构
- 卷积神经网络(Convolutional Neural Network, CNN):专门处理图像的网络,像过滤器提取特征。应用:人脸识别。
- 循环神经网络(RNN, Recurrent Neural Network):能记住前后顺序的模型,像日志流处理。应用:语音识别、文本生成。
- Transformer:新型神经网络架构,靠"注意力机制"理解长依赖关系,像负载均衡器智能调度请求。应用:ChatGPT、BERT。
自然语言处理
- 自然语言处理(NLP, Natural Language Processing):让机器理解和生成人类语言。应用:ChatGPT、翻译。
- 命名实体识别(NER, Named Entity Recognition):识别文本中的人名、地名、组织名。应用:信息抽取。
- 关键词提取(Keyword Extraction):从文本中找出核心词,像日志关键词过滤。应用:搜索引擎。
- 文本聚类(Text Clustering):把相似文本分组,像日志分桶。应用:文档分类。
- 机器翻译(Machine Translation):让模型自动把一种语言转成另一种语言,像调用"语言转换 API",输入英文返回中文。应用:跨境电商、文档翻译。
- 注意力机制(Attention Mechanism):模型会自动挑重点,就像读代码时先看核心逻辑,而不是逐字逐行。应用:提升翻译、文本生成质量。
- 嵌入(Embedding):把文字、图片等复杂内容转化成一串向量(数字坐标),就像给每个词或图像生成"坐标地址",方便计算机理解和比较。应用:语义搜索、推荐系统。
计算机视觉
- 语义分割(Semantic Segmentation):把图像按像素划分区域,像给 Kubernetes Pod 打标签。应用:自动驾驶车道识别。
- ImageNet:大型标注图像库,像数据集的"GitHub"。应用:训练视觉模型。
强化学习
- 强化学习(Reinforcement Learning):模型通过"奖惩"学习,像游戏里的 AI 角色自我训练。应用:机器人、AlphaGo。
- alpha-beta 剪枝(Alpha-Beta Pruning):减少搜索无用路径,像缓存命中跳过无效请求。应用:国际象棋 AI。
- 深度强化学习(Deep Reinforcement Learning):结合神经网络和强化学习,模型通过"试错 + 奖励"学会策略,像训练游戏 AI 自己摸索最佳玩法。应用:自动驾驶、机器人控制。
AI 框架与工具
- GPU(Graphics Processing Unit):并行计算利器,像高性能分布式任务执行器。应用:训练深度学习模型。
- TPU(Tensor Processing Unit):Google 定制的 AI 芯片,专为矩阵运算加速。应用:高效训练大模型。
- PyTorch(PyTorch):一个主流的深度学习框架,提供"搭积木式"的 API,让开发者快速定义、训练和调试神经网络。它像是 AI 界的"Spring Boot",既能研发新模型,也能直接跑在生产。应用:NLP 模型训练、计算机视觉任务、科研原型开发。
- TensorFlow(TensorFlow):Google 开发的深度学习框架,功能全面,适合大规模分布式训练,像是"企业级 AI 开发平台"。应用:语音识别、图像分类、推荐系统。
- TensorRT(TensorRT):NVIDIA 提供的推理优化引擎,可以把训练好的模型"加速部署",通过算子优化、混合精度和显存压缩,让模型在 GPU 上跑得更快更省。应用:实时语音识别、自动驾驶中的 AI 推理。
- SGLang(SGLang):一个专门为大语言模型优化的推理框架,用"程序化提示"和高效执行引擎,让模型调用更快、更省资源。应用:在生产环境中用 LLM 做多轮对话或复杂任务编排。
- Kaggle:一个机器学习竞赛平台,开发者可以上传代码和模型,与全球开发者比拼。应用:练手 AI 技能、分享数据集。
大语言模型相关
- Turing-NLG:微软大规模语言模型,类似 GPT。应用:自然语言生成。
- GPT(Generative Pre-trained Transformer):一种基于 Transformer 架构的大模型,先在海量数据上预训练,再根据提示生成内容,像"预装了全网知识的代码生成器"。应用:写代码、写文案、对话机器人。
- LLM(Large Language Model):大语言模型,基于海量文本数据训练,能理解和生成自然语言,像是"通用文本 API"。应用:智能客服、文档总结、代码生成。
- 提示工程(Prompt Engineering):通过精心设计输入指令,引导模型输出更理想的结果,像写 SQL 时精确指定查询条件。应用:问答系统、自动化办公。
- Hugging Face:一个 AI 模型的"GitHub",开发者可以在上面找、分享和使用各种预训练模型。应用:快速接入 NLP、CV 模型到应用。
- 预训练模型(Pre-trained Model):别人已经训练好的模型,像现成的开源库。应用:快速迁移到新任务。
- PEFT(Parameter-Efficient Fine-Tuning):参数高效微调方法,只调整模型中少量参数就能让模型适配新任务,像给已有系统打补丁而不是重写。应用:小公司快速用大模型做定制。
- 上下文工程(Context Engineering):通过设计输入上下文(不仅是提示词,还包括相关背景信息),让模型更好理解任务,像写函数时传入完整参数避免歧义。应用:提升问答和代码生成效果。
- LoRA(Low-Rank Adaptation):一种 PEFT 方法,把大模型参数分解成低秩矩阵,只训练这些小矩阵,既省内存又高效。应用:在消费级显卡上微调大模型。
- PagedAttention:优化注意力机制的显存管理方法,把长文本分块分页处理,像数据库的分页查询,避免一次性占满内存。应用:大模型长上下文推理。
- 蒸馏(Distillation):一种模型压缩方法,把大模型学到的“知识”传递给小模型,就像老师把教材精简讲义给学生。应用:让小模型继承大模型能力,但运行更快更轻便。
- 蒸馏模型(Distilled Model):经过蒸馏训练后的小模型,通常体积更小、推理更快,但在某些复杂任务上准确率可能稍有下降。应用:在移动端或低算力环境中部署 NLP 模型。
- Checkpoint(检查点):模型在训练过程中的中间保存状态,可以从某个 checkpoint 继续训练或直接推理。
- Quantization(量化):把模型参数从高精度(如 FP32)压缩到低精度(如 INT8),像压缩图片一样,减少显存占用但尽量保持精度。
- Inference(推理):指使用训练好的模型进行预测或生成结果的过程,相当于“上线调用”。
- Fine-tuned(微调):说明模型在基础预训练模型上又针对特定任务继续训练过,比如情感分类或法律问答。
- Tokenizer(分词器):把原始文本切分成模型能理解的最小单位(token),像数据库的“索引”过程。
生成模型
- 生成对抗网络(GAN, Generative Adversarial Network):两个模型互相博弈,一个生成,一个判别。应用:图像生成。
- DALL-E:基于生成模型的文本到图像系统,输入一句描述,模型直接画图,像调用"图像生成 API"。应用:设计、广告、创意绘图。
- Stable Diffusion(Stable Diffusion):一种扩散模型,可根据文本描述生成图像,运行门槛低,可以在个人电脑上跑,像是"本地可部署的画图 AI"。应用:插画生成、游戏美术、广告创意。
- 对比图像预训练(Contrastive Image Pre-training, CLIP):让模型同时理解文字和图像,把"猫的图片"和"cat"放在一起训练,学会把不同模态放到同一语义空间。应用:图像检索、文本生成图片。
- 多模态(Multimodal):模型能同时理解和处理多种数据形式(文字、图片、语音),像一个能看图又能聊天的助手。应用:智能客服、教育助手。
知识表示与推理
- 三元组(Triple):知识表示方式(主语 - 谓语 - 宾语),像数据库里的三列记录。应用:语义知识图谱。
- 框架表示(Frame Representation):把知识表示为结构化"对象",像类和属性。应用:语义理解。
- 专家系统(Expert System):基于规则的 AI,像 if-else 引擎。应用:医学诊断、财务审计。
- 本体(Ontology):统一领域内概念和关系的字典,像 API 规范。应用:知识图谱构建。
- 语义网(Semantic Web):让网页能被机器理解,像给 HTML 加结构化标签。应用:智能搜索。
- 向前推理(Forward Chaining):从事实推到结论,像流水线。应用:规则引擎。
- 向后推理(Backward Chaining):从目标倒推条件,像调试时反查日志。应用:专家系统。
- 冲突集(Conflict Set):规则系统里可用的多条规则集合,像调度器的候选任务池。应用:推理引擎。
Hugging Face
- GGUF(GGUF):一种专门为大语言模型优化的文件格式,由 llama.cpp 社区提出,用于高效存储和加载模型权重,兼顾速度和兼容性。应用:在本地或边缘设备上轻量运行 LLM。
- 张量类型(Tensor type, BF16):指模型权重存储的数据精度。BF16(BFloat16)是一种 16 位浮点数格式,兼顾训练速度和数值稳定性。应用:加速训练和推理,同时节省显存。
- 模型规模 4B(Model size 4B):表示模型大约有 40 亿个参数(B = Billion),参数越多,模型表达能力越强,但资源消耗也更大。应用:4B 模型常用于本地推理,兼顾性能和效率。
- Safetensors(Safetensors):一种安全高效的模型权重文件格式,避免传统 pickle 格式可能带来的安全漏洞,加载更快更安全。应用:Hugging Face 上多数新模型默认用此格式分发。
- Pipeline(流水线):Hugging Face 提供的封装接口,比如
pipeline("text-classification"),能快速调用模型完成指定任务。 - MoE(Mixture of Experts):专家混合模型,把大模型拆成多个“专家子模型”,推理时只激活一部分专家,像微服务里按需调用不同模块,提升效率。应用:在降低计算成本的同时保持模型能力。
- Instruct / Thinking / Captioner:模型训练或用途的标签。Instruct 指“指令跟随模型”,擅长执行用户任务;Thinking 指“推理型模型”,更注重链路思考;Captioner 指“图像描述模型”,能看图写文字。应用:帮助用户快速判断模型适合场景。
- FlashAttention(FlashAttention):一种高效注意力实现算法,通过显存优化和 CUDA kernel 加速,让长序列训练和推理更快更省显存。应用:大语言模型训练和长文本处理。
- llama.cpp(llama.cpp):一个 C++ 实现的轻量化大语言模型推理框架,能在 CPU 或消费级 GPU 上运行 LLaMA 等模型。应用:本地部署聊天机器人、边缘设备推理。
- MLX(MLX):Apple 官方推出的机器学习框架,针对 macOS 和 Apple Silicon 芯片优化,像“PyTorch for Mac”。应用:在 Mac 上训练或运行大模型更高效。
- Guardrails(Guardrails):一种为大模型加“安全护栏”的工具,可以限制模型输出格式、过滤敏感内容,像给 API 网关加访问规则。应用:确保 LLM 在生产环境中输出合规和稳定的结果。
其他工具和平台
- NetLogo:一个模拟多智能体系统的平台,像"仿真沙盒",可以模拟蚂蚁觅食、交通流量等复杂系统。应用:教学、社会科学模拟。