术语表
本术语表收录了《ML Systems》教材中出现的关键术语,按字母顺序排列,并包含相关章节的引用。术语采用中英文双语展示,便于查阅和理解。
使用说明
- 术语按字母顺序排列,便于快速查找
- 每个术语均标注英文原文及中文译名
- 解释部分仅提供中文释义,简明扼要
3
3DMark(3DMark 基准测试): 图形性能基准测试套件,用于评估实时 3D 渲染能力,包括三角形吞吐量、纹理填充率,以及光线追踪和 DLSS 等现代特性。
A
A/B Testing(A/B 测试): 一种对比实验方法,通过将用户随机分组,分别体验系统或模型的两个版本,并比较性能差异,常用于评估新功能或模型效果。
Accountability(可追责性): 指 AI 系统中,个人或组织对系统结果负责的机制,包括可追溯性、文档记录、审计和纠错能力。
Activation Checkpointing(激活检查点): 一种内存优化技术,通过有选择地丢弃和重计算中间激活值,减少反向传播时的内存占用。
Activation Function(激活函数): 神经网络中用于对加权输入求和后进行非线性变换的数学函数,使网络能够学习复杂的非线性模式。
Activation-based Pruning(基于激活的剪枝): 通过分析神经元或通道在数据集上的平均激活值,识别并移除长期输出较低、对决策贡献有限的神经元。
Active Learning(主动学习): 通过迭代选择最具信息量的样本进行标注,以最小化标注成本,通常能用更少的数据达到目标性能。
Adam Optimization(Adam 优化器): 一种自适应学习率优化算法,结合了动量和 RMSprop 思想,为每个参数维护梯度和梯度平方的指数滑动平均。
Adapter Modules(适配器模块): 插入在预训练模型冻结层之间的小型可训练神经网络组件,实现轻量级迁移,无需修改基础结构。
Adaptive Resource Pattern(自适应资源模式): 一种设计模式,使系统能根据资源可用性动态调整运行方式,通过弹性伸缩应对计算、带宽和存储变化。
Adversarial Attack(对抗攻击): 通过精心设计输入,诱使机器学习模型做出错误预测,同时这些输入对人类来说几乎无法区分。
Adversarial Example(对抗样本): 经过微小扰动后,能欺骗模型产生错误预测的输入,通常对人类来说与正常数据无异。
Adversarial Training(对抗训练): 将对抗样本纳入训练过程,提高模型对恶意输入的稳健性。
AGI(通用人工智能): Artificial General Intelligence,指在所有认知领域具备与人类相当甚至超越人类能力的计算系统,能够跨任务泛化,无需针对性训练。
AI for Good(善用 AI): 指设计、开发和部署 AI 系统以解决社会和环境重大挑战,提升人类福祉、促进可持续发展。
Alerting(告警): 自动化通知系统,当生产环境中的指标超出阈值或检测到异常时,及时通知相关团队。
AlexNet(AlexNet 网络): 2012 年 ImageNet 竞赛获胜的卷积神经网络架构,将错误率从 26% 降至 16%,引发深度学习热潮。
Algorithmic Efficiency(算法效率): 在给定资源约束下,通过模型压缩、结构优化等手段提升算法性能。
Algorithmic Fairness(算法公平性): 自动化系统在决策时不应因种族、性别、年龄等受保护属性对个人或群体造成不公。
All-Reduce(全归约): 分布式计算中的集合通信操作,各进程贡献数据并接收合并结果,常用于分布式训练中的梯度聚合。
AlphaFold(AlphaFold 蛋白质结构预测): DeepMind 开发的 AI 系统,能根据氨基酸序列预测蛋白质三维结构,解决了长期未解的“蛋白质折叠问题”。
Anomaly Detection(异常检测): 识别数据中不符合预期模式的部分,常用于发现异常、故障或恶意行为。
Anonymization(匿名化): 通过移除或修改个人身份信息保护隐私,但对高级重识别攻击往往防护不足。
Apache Kafka(Apache Kafka 流平台): 分布式流处理平台,采用发布 - 订阅消息机制,广泛用于高吞吐、容错的数据管道。
Apache Spark(Apache Spark 分布式计算): 开源分布式计算框架,支持大规模数据处理和内存计算,极大提升 ETL 效率。
Application-Specific Integrated Circuit(专用集成电路): 为特定任务定制的芯片,放弃通用性以获得极致效率,如 Cerebras Wafer-Scale Engine。
Application-Specific Integrated Circuit (ASIC)(ASIC 专用芯片): 专为特定计算任务设计的定制芯片,性能和能效远超通用处理器,如 TPU 和比特币矿机。
Architectural Efficiency(结构效率): 关注模型在训练和推理时如何高效执行,包括利用稀疏性、分解大组件、动态调整计算等。
Artificial General Intelligence(通用人工智能): 假设中的 AI 形态,具备跨领域泛化能力,是 AI 研究的终极目标。
Artificial Intelligence(人工智能): 计算机科学领域,致力于让系统具备感知、推理、学习和决策等人类智能能力。
Artificial Neural Network(人工神经网络): 受生物神经网络启发,由多层神经元组成,通过可调权重和偏置学习数据模式的计算模型。
Artificial Neurons(人工神经元): 神经网络中的基本计算单元,模拟生物神经元的输入加权、偏置和激活过程。
Attack Taxonomy(攻击分类体系): 对 AI 系统安全威胁和对抗攻击的系统性分类,按方法、目标和影响组织,指导防御策略。
Attention Mechanism(注意力机制): 神经网络组件,根据内容动态计算元素间的加权连接,使模型聚焦于输入的关键部分。
Autoencoder(自编码器): 通过最小化重构误差学习数据压缩表示,常用于异常检测和降维。
Automatic Differentiation(自动微分): 自动计算程序中函数的精确导数,广泛用于神经网络的梯度优化。
Automatic Mixed Precision(自动混合精度): 自动管理不同数值精度(如 FP16、FP32),在保证精度的同时提升速度和节省内存。
Automation Bias(自动化偏见): 人类过度依赖自动系统输出,即使明显出错也不质疑,影响人工监督。
AutoML(自动化机器学习): 利用机器学习自动完成模型设计、超参数优化和特征选择等决策,降低人工干预。
Autoregressive(自回归模型): 基于历史元素预测序列下一个元素,如 GPT 按 token 逐步生成文本。
Autoscaling(自动伸缩): 根据负载动态调整计算资源,自动扩容或缩容以优化成本和性能。
Availability Attack(可用性攻击): 通过向训练数据注入噪声或污染多个类别,整体降低模型性能的数据投毒攻击。
B
Backdoor Attack(后门攻击): 在训练数据中植入隐蔽触发器,使模型在推理时遇到特定模式时产生恶意行为。
Backpropagation(反向传播): 通过反向传播误差信号,计算损失函数对权重的梯度,实现神经网络的系统性参数更新。
Bandwidth(带宽): 通信通道或内存接口的数据传输速率,通常以每秒字节数计,是 AI 加速器优化数据流的关键。
Batch Inference(批量推理): 使用训练好的模型对新数据进行批量预测或决策的过程。
Batch Ingestion(批量导入): 定期收集和处理数据的模式,适用于对实时性要求不高的场景。
Batch Normalization(批归一化): 对每层输入进行归一化,稳定训练过程,允许更高学习率和更快收敛。
Batch Processing(批处理): 同时处理多条数据样本,摊薄计算和内存访问成本,提高训练和推理吞吐量。
Batch Size(批大小): 神经网络训练中每次同时处理的样本数,影响效率和梯度估计质量。
Batch Throughput Optimization(批吞吐优化): 通过并行和批处理技术,最大化单位时间内处理的样本数。
Batched Operations(批量操作): 将矩阵 - 向量运算转为更高效的矩阵 - 矩阵运算,提高硬件利用率。
Bayesian Neural Networks(贝叶斯神经网络): 在权重上引入概率分布,实现预测不确定性量化和更稳健的决策。
Benchmark Engineering(基准工程): 系统设计和开发性能评测框架,包括测试工具、指标选择和结果解释方法。
Benchmark Harness(基准测试框架): 控制测试执行、输入管理和性能测量的基础设施,确保评测可复现。
Benchmarking(基准测试): 系统性评估机器学习系统的计算性能、算法效果和数据质量,优化多样化工作负载。
BERT(BERT 模型): Google 于 2018 年提出的基于 Transformer 的语言模型,通过掩码语言建模预训练,革新了 NLP 领域。
bfloat16(bfloat16 格式): Google Brain 开发的 16 位浮点格式,动态范围与 FP32 相同但精度更低,适合深度学习训练。
Bias(偏置): 神经元加权和后加上的可学习参数,使激活函数能灵活拟合复杂模式。
Bias Detection(偏差检测): 系统性识别模型输出中对不同群体的不公平或差异性的方法。
Bias Mitigation(偏差缓解): 在数据收集、模型训练或后处理阶段,减少不公平现象的技术和干预措施。
Bias Terms(偏置项): 神经网络中用于平移激活函数的可学习参数,即使所有输入为零也能激活。
Bias-only Adaptation(仅偏置微调): 冻结全部权重,仅更新标量偏置项的轻量级训练策略,适合设备端学习。
Binarization(二值化): 将神经网络权重和激活值压缩为二进制(-1 和 +1),极致压缩但需专用训练和硬件。
Biodiversity Monitoring(生物多样性监测): 利用相机陷阱和传感器网络等技术,系统观测和测量生物多样性,追踪物种和栖息地变化。
Biological Neuron(生物神经元): 神经系统中的细胞,通过电信号和化学信号接收、处理和传递信息,是人工神经网络的灵感来源。
Bit Flip(比特翻转): 内存或寄存器中单个位意外变化,可能导致数据或计算错误。
Black Box(黑盒): 只能观察输入输出,无法了解内部机制的系统,AI 决策透明性问题的典型例子。
Black-box Attack(黑盒攻击): 攻击者不了解模型结构、参数和数据,仅通过查询和观察输出实施攻击。
BLAS(基础线性代数子程序): 实现常用线性代数运算的低层规范,是现代 ML 框架的计算基础。
Bounding Box(边界框): 在图像中用矩形标注目标位置,计算机视觉训练数据常用标注方式。
Brain-Computer Interface(脑机接口): 大脑与外部设备的直接通信通道,结合 ML 和神经技术实现脑控计算或假肢。
Brittleness(脆弱性): 基于规则的 AI 系统遇到未覆盖输入时完全失效的倾向,缺乏泛化能力。
Built-in Self-Test (BIST)(内建自测试): 硬件自带的测试机制,通过专用电路和预设测试模式检测自身故障。
C
Cache Timing Attack(缓存时间攻击): 利用内存缓存访问模式的变化,推测程序执行或数据的敏感信息的侧信道攻击。
Caching(缓存): 将频繁访问的数据存储在高速存储系统中,以减少检索延迟,提高 ML 管道的系统性能。
Calibration(标定): 后训练量化中,分析代表性数据集以确定最佳量化参数(如缩放因子和零点)的过程,旨在最小化从高精度到低精度转换时的准确性损失。
Canary Deployment(金丝雀部署): 新模型版本仅对小部分流量提供服务并监控其性能的渐进式发布策略,以便在全面部署前进行安全验证。
Carbon Footprint(碳足迹): 个人、组织、事件或产品直接和间接产生的温室气体排放总量,通常以二氧化碳当量计量。
Carbon-aware Scheduling(碳感知调度): 根据电网碳强度调度 AI 工作负载的计算方法,优先在可再生能源最充足时执行。
Catastrophic Forgetting(灾难性遗忘): 神经网络在适应新任务时丧失先前学习知识的现象,持续的设备端学习场景中的关键挑战。
Cerebras Wafer-Scale Engine(Cerebras 晶圆级引擎): 革命性单晶圆处理器,包含 2.6 万亿个晶体管和 85 万个核心,旨在消除大规模机器学习训练中的设备间通信瓶颈。
Channelwise Quantization(通道量化): 每个通道使用一组量化参数的量化粒度方法,比层级量化提供更精确的表示,同时保持硬件效率。
Checkpoint and Restart Mechanisms(检查点和重启机制): 定期保存程序状态以便在故障后从上次保存的状态恢复的技术,提高系统弹性。
CI/CD Pipelines(CI/CD 流水线): 持续集成和持续交付的自动化工作流,通过集成测试、验证和部署过程,简化模型开发。
CIFAR10(CIFAR10 数据集): 包含 60,000 张 32×32 彩色图像的加拿大高级研究院数据集,尽管图像尺寸较小,但在计算机视觉中仍作为标准基准使用。
Classification Labels(分类标签): 将特定标签或类别分配给数据示例的简单分类注释,表示监督学习注释的最基本形式。
Client Scheduling(客户端调度): 根据可用性、数据质量和资源限制选择参与联邦学习轮次的设备的过程,以确保模型更新的代表性。
Cloud ML(云端机器学习): 利用云计算基础设施提供可扩展计算资源进行训练和推理的机器学习系统,通常具有高带宽连接和强大处理能力。
CloudSuite(CloudSuite 基准套件): 在 EPFL 开发的基准套件,涵盖现代数据中心工作负载,包括网页搜索、数据分析和媒体流,测量网络、存储和计算维度的端到端性能。
Co Design(协同设计): 模型架构、硬件平台和数据管道的整体设计,以无缝协作消除权衡,通过端到端优化实现最佳效果。
Cold-start Performance(冷启动性能): 系统从闲置状态过渡到主动执行所需的时间,特别是在无服务器环境中,模型按需加载时至关重要。
Combinational Logic(组合逻辑): 输出仅依赖于当前输入状态的数字逻辑电路,不受过去状态或存储器件影响。
Compound AI Systems(复合 AI 系统): 结合多个专用模型和组件协同工作的 AI 架构,而不是依赖单一的整体模型,实现模块化、专业化和可解释性的提升。
Computational Graph(计算图): 数学运算的有向无环图表示,节点表示运算或变量,边表示数据流,支持神经网络计算的自动微分和优化。
Compute Efficiency(计算效率): 优化计算资源(包括硬件和能源)以最大化处理速度,同时最小化训练和部署过程中的资源消耗。
Compute-optimal Training(计算最优训练): 根据缩放法则,优化模型大小和训练计算预算的训练策略,以在给定计算预算下实现最佳性能。
Computer Engineering(计算机工程): 结合电气工程和计算机科学的工程学科,设计和构建复杂计算系统,解决日益增长的硬件和软件系统集成复杂性。
Concept Bottleneck Models(概念瓶颈模型): 神经网络架构,首先预测可解释的中间概念,然后再做出最终预测,结合深度学习的强大和透明度。
Concept Drift(概念漂移): 输入特征与目标结果之间的基本关系随时间变化而导致的性能下降,需要重新训练模型。
Conditional Computation(条件计算): 动态优化技术,根据输入特征选择性激活神经网络的不同部分,减少计算负担。
Connectionism(连接主义): 强调学习和智能源于简单互联单元的 AI 建模方法,是神经网络的理论基础,与符号 AI 方法相对立。
Consensus Labeling(共识标注): 质量控制方法,为同一数据点收集多个注释,以通过注释者间一致性识别有争议的案例并提高标签可靠性。
Conservation Technology(保护技术): 旨在保护和监测野生动物及生态系统的技术解决方案,包括相机陷阱、传感器网络和卫星监测系统,用于追踪动物行为和检测威胁。
Constitutional AI(宪法性 AI): 一种训练方法,模型通过根据一组原则批判响应来自我改进输出,从而实现迭代自我完善,减少有害内容的同时保持有用性。
Containerization(容器化): 将应用及其依赖项打包到可移植的隔离容器中,确保在不同环境中一致执行的工具,如 Docker。
Containerized Microservices(容器化微服务): 使用轻量级容器打包单个服务的架构模式,实现跨分布式环境的可扩展、可维护的 ML 系统部署。
Continual Learning(持续学习): 机器学习系统从数据流中持续学习的能力,同时保留先前获得的知识,解决神经网络中的灾难性遗忘问题。
Continuous Integration(持续集成): 软件开发实践,代码更改会自动集成、测试和验证,以便在开发周期的早期发现问题。
Convolution(卷积): 卷积神经网络的基本数学运算,通过滤波器(内核)提取输入数据的特征,如边缘、纹理或模式,特别适合处理图像和空间数据。
Convolution Operation(卷积操作): 将滤波器(内核)滑动通过输入数据以检测局部特征的数学运算,是卷积神经网络进行空间模式识别的基础。
Convolutional Neural Network(卷积神经网络): 专为处理网格状数据(如图像)设计的神经网络架构,使用卷积层应用滤波器以检测局部特征。
Cooling Effectiveness(冷却效果): 数据中心冷却系统去除计算设备热量的效率,通常以去除的热量与用于冷却的能量之比来衡量。
Counterfactual Explanations(反事实解释): 描述如果修改特定输入特征,模型输出将如何变化的解释,特别有助于理解决策边界。
Covariate Shift(协变量漂移): 一种分布变化情况,输入分布发生变化,而输入与输出之间的条件关系保持稳定。
CP Decomposition(CP 分解): CANDECOMP/PARAFAC分解,将张量表示为若干个秩为一的分量之和,用于通过减少参数数量来压缩神经网络层,同时保留计算功能。
CRISP-DM(CRISP-DM 数据挖掘标准过程): 1996 年提出的数据项目结构化方法论,定义了数据项目的六个阶段:业务理解、数据理解、数据准备、建模、评估和部署。
Cross-Entropy Loss(交叉熵损失): 常用于分类任务的损失函数,衡量预测概率分布与真实类别标签之间的差异,为有效学习提供强梯度。
Crowdsourcing(众包): 通过互联网利用分布式个人执行标注任务的协作数据收集方法,通过 Amazon Mechanical Turk 等平台实现可扩展的数据集创建。
cuBLAS(CUDA 基本线性代数子程序): NVIDIA 的 CUDA 加速的标准线性代数运算库,支持高性能的矩阵计算。
CUDA(计算统一设备架构): NVIDIA 的并行计算平台和编程模型,支持在图形处理单元(GPU)上进行通用计算,利用大规模并行性加速张量运算。
Curriculum Learning(课程学习): 模型从简单示例学习再到困难示例的训练策略,模仿人类教育,提升收敛速度。
D
Dartmouth Conference(达特茅斯会议): 1956 年在达特茅斯学院举行的为期 8 周的研讨会,人工智能正式诞生于此,由 John McCarthy、Marvin Minsky、Nathaniel Rochester 和 Claude Shannon 组织,首次提出“人工智能”一词。
Data Augmentation(数据增强): 通过旋转、裁剪或添加噪声等变换人工扩展数据集,以提高模型性能并减少过拟合。
Data Cascades(数据级联): 数据质量问题随时间累积而导致的系统性失败,造成下游负面影响,如模型失效、昂贵的重建或项目终止。
Data Center(数据中心): 容纳计算机系统及其相关组件(如电信和存储系统)的设施,通常包含数千台服务器,用于云计算操作。
Data Centric AI(数据中心 AI): 从以模型为中心转向以数据为中心的开发范式,重点系统性地提高数据质量,而不仅仅是模型架构。
Data Compression(数据压缩): 通过编码、量化或特征提取等技术,减少训练数据的大小和复杂性,以便在内存受限设备上高效存储和处理。
Data Curation(数据策展): 通过删除无关信息、纠正错误和确保数据符合特定标准,选择、组织和维护高质量数据集的过程。
Data Drift(数据漂移): 输入数据的统计特性随时间变化而导致的机器学习模型性能下降的现象,即使基础代码保持不变。
Data Efficiency(数据效率): 优化训练机器学习模型所需的数据量和质量,最大化信息获取,最小化所需数据量。
Data Governance(数据治理): 确保数据安全、隐私、合规和道德使用的政策、程序和技术框架,贯穿整个机器学习管道。
Data Ingestion(数据摄取): 从各种来源收集和导入原始数据的过程,以便存储、处理和准备机器学习应用。
Data Lake(数据湖): 以原始格式存储结构化、半结构化和非结构化数据的存储库,采用按需解析模式灵活分析数据。
Data Lineage(数据血缘): 数据通过各种转换和处理的流动文档和跟踪,提供数据来源和修改的可见性,以便合规和调试。
Data Parallelism(数据并行): 一种分布式训练策略,将数据集拆分到多个设备上,同时每个设备保持模型的完整副本,实现梯度的并行计算。
Data Pipeline(数据管道): 自动化数据从源头经过处理阶段到最终存储或消费的基础设施和工作流。
Data Poisoning(数据投毒): 一种攻击方法,攻击者向训练数据注入精心制作的恶意数据点,以操纵模型行为。
Data Quality(数据质量): 数据在准确性、完整性、一致性和及时性等方面满足要求的程度,直接影响机器学习模型的性能。
Data Sanitization(数据清洗): 故意和永久性删除或销毁存储在内存设备上的数据的过程,以确保数据安全。
Data Scaling Regimes(数据缩放机制): 模型训练的不同阶段,数据需求按可预测模式缩放,指导数据集大小与计算投资的决策。
Data Validation(数据验证): 系统性验证收集的数据是否符合质量标准、格式正确、信息准确,适合机器学习模型训练和评估。
Data Versioning(数据版本控制): 跟踪和管理数据集不同版本的实践,类似于代码版本控制,以确保可复现性并在需要时回滚到先前的数据状态。
Data Warehouse(数据仓库): 针对分析查询(OLAP)优化的集中式存储库,按照标准化模式存储来自多个来源的结构化数据。
Data-Centric Approach(以数据为中心的方法): 一种机器学习范式,优先考虑数据质量、多样性和策展,而不仅仅是模型架构改进,以实现更好的性能。
Dataflow Architecture(数据流架构): 一种专用计算架构,指令执行由数据可用性决定,而不是由程序计数器驱动,支持神经网络操作的高度并行处理。
Dataflow Challenges(数据流挑战): 硬件加速器中管理数据移动和依赖关系的技术难题,包括内存带宽限制和同步要求。
Dead Letter Queue(死信队列): 处理失败的数据的单独存储机制,允许稍后分析和重新处理有问题的数据,而不会阻塞主管道。
Deep Learning(深度学习): 机器学习的一个子领域,使用多层人工神经网络从数据中自动学习层次化表示,无需显式特征工程。
Defensive Distillation(防御性蒸馏): 一种训练学生模型模仿教师模型行为的技术,使用软标签减少对抗扰动的敏感性。
Demographic Parity(人口统计学平衡): 公平性标准,要求在受保护属性的不同群体中,获得积极预测的概率独立于群体成员身份。
Dennard Scaling(丹纳德缩放): 历史观察,随着晶体管变小,其功率密度保持大致恒定,允许在不成比例增加功耗的情况下增加更多晶体管。
Dense Layer(密集层): 全连接神经网络层,每个神经元接收来自上一层所有神经元的输入,实现特征间的全面信息整合。
Dense Matrix-Matrix Multiplication(稠密矩阵乘法): 神经网络中主导训练时间的基本计算操作,占典型模型 60-90% 的计算量。
Deployment Constraints(部署约束): 影响机器学习模型在生产环境中实施的操作限制,如硬件资源、网络连接、法规要求和集成要求。
Depthwise Separable Convolutions(深度可分离卷积): 将标准卷积分解为深度卷积和逐点卷积的计算技术,移动优化架构减少参数和计算量 8-9 倍。
DevOps(开发运维): 软件开发实践,结合开发和运维团队,通过自动化和协作缩短开发周期,提高软件质量。
Dhrystone(Dhrystone 基准测试): 1984 年推出的基于整数的基准测试,测量整数和字符串操作的 DMIPS(Dhrystone MIPS),旨在与浮点基准互补。
Diabetic Retinopathy(糖尿病视网膜病变): 糖尿病并发症,损害视网膜血管,导致可预防失明的主要原因,是医疗 AI 筛查系统的关键应用领域。
Differential Privacy(差分隐私): 通过向计算中添加校准噪声提供正式隐私保证的数学框架,确保任何个人数据的包含或排除对输出的影响有限。
Digital Divide(数字鸿沟): 指有无现代信息和通信技术获取能力的群体之间的差距,特别影响服务不足社区从数字解决方案中受益的能力。
Digital Twin(数字孪生): 利用实时数据和机器学习镜像、预测和优化其物理对应物行为的物理系统虚拟表示。
Disaster Response Systems(灾害响应系统): 利用机器学习通过卫星图像分析、传感器网络和资源分配优化等手段,检测、预测和响应自然灾害的自动化系统。
Distributed Computing(分布式计算): 一种在多台机器或处理器上同时处理数据的方法,通过 Apache Spark 等框架实现对大数据集的可扩展处理。
Distributed Intelligence(分布式智能): 将计算能力分布在多个设备和位置,而不是依赖单一集中系统的能力,实现本地处理和决策。
Distributed Knowledge Pattern(分布式知识模式): 解决去中心化节点间集体学习和推理的设计模式,强调点对点知识共享和协作模型改进,同时保持操作独立性。
Distributed Training(分布式训练): 跨多台机器或设备训练机器学习模型的方法,以处理超出单设备计算或内存容量的大型数据集和模型。
Distribution Shift(分布变化): 模型部署时遇到的数据与训练时数据分布不同的现象,可能导致模型性能下降。
Distribution Shift Types(分布变化类型): 正式分类的数据分布变化,包括协变量漂移、标签漂移、概念漂移和领域漂移,每种情况都需要特定的适应技术。
Domain Adaptation(领域适应): 使在一个领域训练的模型能够在不同但相关领域上表现良好的机器学习技术,解决分布不匹配挑战。
Domain-Specific AI Applications(领域特定 AI 应用): 针对特定行业(如医疗、农业、教育或灾害响应)量身定制的机器学习解决方案,旨在解决独特的挑战和限制。
Domain-Specific Architecture(领域特定架构): 针对特定计算工作负载优化的硬件设计,牺牲灵活性以提高性能和能效,相较于通用处理器更为高效。
Double Modular Redundancy (DMR)(双模冗余): 一种故障容错技术,将计算复制到两个独立系统中,通过比较识别和纠正错误。
Dropout(随机失活): 一种正则化技术,在训练过程中随机将一部分输入单元置为零,以防止过拟合并提高泛化能力。
Dual-Use Dilemma(双重用途困境): 减轻具有积极和消极潜在应用的技术误用的挑战,特别是在 AI 安全领域。
Dying ReLU Problem(ReLU 死亡问题): ReLU 神经元在加权输入持续为负时变得永久不活跃并对所有输入输出零的现象,导致其无法参与学习。
Dynamic Graph(动态图): 在程序执行过程中构建和修改的计算图,允许灵活的模型架构和更简单的调试,但可能限制优化机会。
Dynamic Pruning(动态剪枝): 一种模型优化技术,在保持预测性能的同时,去除神经网络中不必要的参数,通过消除冗余权重、神经元或层来减少模型大小和计算成本。
Dynamic Quantization(动态量化): 通过将高精度权重和激活值映射到较低位表示,降低神经网络中数值精度的过程,显著减少内存使用和计算需求。
Dynamic Random Access Memory (DRAM)(动态随机存取存储器): 一种易失性内存,以电容器存储数据并需要定期刷新,通常用作计算机系统的主内存。
Dynamic Voltage and Frequency Scaling (DVFS)(动态电压频率调整): 根据工作负载需求调整处理器电压和时钟频率的电源管理技术,以优化能耗并保持性能。
E
Eager Execution(急切执行): 一种执行模式,操作在代码中被调用后立即被评估,提供直观的调试和开发体验,但可能牺牲某些基于图的执行优化机会。
Early Exit Architectures(早期退出架构): 神经网络设计,在不同深度包含多个预测头,当可以自信地做出预测时,允许样本提前退出,从而减少每次推理的平均计算成本。
Edge AI(边缘 AI): 将人工智能算法直接部署在边缘设备上,如智能手机、物联网传感器和嵌入式系统,实现实时处理,无需云连接。
Edge Computing(边缘计算): 一种分布式计算范式,将计算和数据存储更靠近数据源,减少延迟和带宽使用。
Edge Deployment(边缘部署): 机器学习模型在网络边缘的设备上本地运行,而不是在集中式云服务器上,减少延迟并实现无需持续互联网连接的操作。
Edge ML(边缘机器学习): 在边缘网络上执行推理,有时还包括训练的机器学习系统,通常在计算能力有限的设备上运行。
Edge Training(边缘训练): 直接在边缘设备上训练或微调机器学习模型的过程,实现个性化和适应,无需将数据传输到云服务器。
EfficientNet(EfficientNet 模型): 通过神经架构搜索发现的一系列神经网络架构,通过复合缩放平衡网络深度、宽度和输入分辨率,实现更好的准确性 - 效率权衡。
Electromigration(电迁移): 在电场作用下,导体中金属原子的移动,可能导致随时间推移而产生的永久性硬件故障。
ELIZA(ELIZA 聊天机器人): 麻省理工学院的 Joseph Weizenbaum 于 1966 年创建的早期聊天机器人,通过模式匹配和替换模拟人类对话,令人惊讶的是,人们开始对这个简单的程序产生情感依赖。
ELT (Extract, Load, Transform)(提取、加载、转换): 一种数据处理范式,先将原始数据加载到目标系统中,再进行转换,为不断发展的分析需求提供灵活性。
Embedded Systems(嵌入式系统): 在更大机械或电气系统中具有专用功能的计算机系统,通常针对特定任务设计,具有实时计算约束。
Embodied Carbon(实体碳): 产品在开始运行前的制造、运输和安装过程中产生的温室气体排放总量。
Emergent Behaviors(涌现行为): 个体组件相互作用而产生的意外系统级模式或特征,通常仅在系统规模扩大或在真实条件下运行时显现。
Emergent Capabilities(涌现能力): 神经网络在特定参数阈值下突然出现的能力,如推理和算术技能,这些能力不是随着规模的扩大而逐渐提高的。
Encoder-Decoder(编码器 - 解码器): 一种架构模式,编码器将输入处理为压缩表示,解码器则根据该表示生成输出,常用于序列到序列的任务中。
End-to-End Benchmarks(端到端基准测试): 评估整个 AI 系统管道的综合评估方法,包括数据处理、模型执行、后处理和基础设施组件。
Energy Efficiency(能源效率): 每单位能源消耗所执行的计算工作的度量,通常以每焦耳操作数表示,对电池供电和数据中心部署至关重要。
Energy Star(能源之星): 美国环保署的认证项目,为计算设备设定能源效率标准,要求系统在运行和待机模式下均满足严格的效率要求。
Ensemble Methods(集成方法): 结合多个模型以提高性能的技术,如随机森林和梯度提升,曾在深度学习兴起前主导机器学习竞赛。
Environmental Impact Measurement(环境影响测量): 系统跟踪和量化 AI 系统生态影响的方法,包括能耗、碳排放和资源消耗等。
Environmental Monitoring(环境监测): 利用传感器网络和机器学习系统收集和分析环境数据,以跟踪生态系统健康、污染水平和气候变化影响。
Epoch(轮次): 神经网络训练中对整个训练数据集进行一次完整的遍历,具体包括多少次批量迭代取决于数据集大小和批量大小。
Equality of Opportunity(机会平等): 确保各群体间相同的真实正例率,保证合格个体无论其群体成员身份如何都能获得平等待遇的公平性标准。
Equalized Odds(均衡赔率): 要求不同人口统计群体间的真实正例率和假正例率相等的公平性定义。
Error-Correcting Codes(纠错码): 用于数据存储和传输中检测和纠正错误的方法,提高系统可靠性和数据完整性。
ESP32(ESP32 微控制器): 广泛用于物联网应用的低成本微控制器单元,具有 240 MHz 的处理器和 520 KB 的 RAM,常部署在资源受限的社会影响应用中。
ETL (Extract, Transform, Load)(提取、转换、加载): 传统的数据处理范式,在将数据加载到数据仓库之前对其进行转换,生成可直接查询的格式化数据。
Exact Model Theft(精确模型盗窃): 旨在提取机器学习模型精确内部结构、参数和架构的攻击,允许完整重现原始模型。
Experience Replay(经验重放): 一种基于内存的技术,将过去的训练示例存储在缓冲区中,以防止灾难性遗忘并稳定流式或持续适应场景中的学习。
Experiment Tracking(实验跟踪): 系统记录和管理机器学习实验的过程,包括超参数、模型版本、训练数据和性能指标,以便于比较和复现。
Expert Collapse(专家崩溃): 混合专家模型中的一种训练病理,仅有少数专家接收到显著的训练信号,导致其他专家被低利用,降低模型有效容量。
Expert Systems(专家系统): 20 世纪 70 年代中期的 AI 系统,捕捉特定领域的人类专家知识,以 MYCIN 诊断血液感染为例,代表了从通用 AI 到领域特定应用的转变。
Explainability(可解释性): 利益相关者理解机器学习模型如何产生输出的能力,通常通过后期解释技术实现。
Explainable AI(可解释的人工智能): 旨在为其决策和预测提供清晰、可解释解释的 AI 系统,解决复杂机器学习模型的“黑箱”问题。
External Memory(外部存储器): 允许神经网络访问和操作外部存储系统的机制,扩展其工作记忆以支持更复杂的推理和信息检索。
F
F1 Score(F1 分数): 综合考虑精确率和召回率的模型准确性度量,通过它们的调和平均数计算得出。
Fairness Constraints(公平性约束): 确保机器学习系统在不同人口统计群体中公平对待的技术和政策限制。
FarmBeats(FarmBeats 项目): 微软研究院的一个项目,将机器学习和物联网技术应用于农业,利用边缘计算实时收集土壤和作物健康数据,同时展示了在具有挑战性的真实环境中分布式 AI 系统的应用。
Fast Gradient Sign Method (FGSM)(快速梯度符号法): 一种基于梯度的对抗攻击,通过沿梯度方向添加小扰动生成对抗样本。
Fault Injection Attack(故障注入攻击): 通过电压操控或电磁干扰等技术故意干扰硬件操作,以诱发计算错误和破坏系统完整性的物理攻击。
Fault Tolerance(容错): 系统在部分组件发生故障或错误时,仍能正确运行的能力。
Feature Engineering(特征工程): 从原始数据中手动设计和提取相关特征以提高机器学习模型性能的过程,在深度学习系统中主要由算法自动完成。
Feature Map(特征图): 卷积层的输出,表示学习到的滤波器对输入不同空间位置的响应,捕捉在各个位置检测到的特征。
Feature Store(特征存储): 提供标准化、可重用特征的专用数据存储系统,实现跨多个模型和团队的特征共享。
Federated Averaging(联邦平均): 联邦学习的标准算法,客户端模型更新根据本地数据集大小加权平均,以生成全局模型。
Federated Learning(联邦学习): 一种机器学习方法,在持有本地数据样本的去中心化边缘设备或服务器上训练算法,而无需交换原始数据。
Feedback Loops(反馈循环): 机器学习生命周期后期输出反过来影响早期阶段决策的循环过程,实现系统的持续改进和适应。
Feedforward Network(前馈网络): 信息单向从输入层流向输出层的神经网络架构,没有循环,形成许多深度学习模型的基础。
Few-Shot Learning(少样本学习): 一种机器学习范式,使模型能够仅使用少量标记示例适应新任务,对数据稀缺的设备端场景至关重要。
Field-Programmable Gate Array(现场可编程门阵列): 可针对特定任务编程的可重构硬件,介于通用处理器和专用集成电路之间的灵活性,适用于定制 ML 加速。
Floating-Point Unit (FPU)(浮点运算单元): 专门执行浮点数算术运算的处理器组件,具有高精度和高效率。
FLOPS(每秒浮点运算次数): 计算吞吐量的度量,量化系统可以执行多少个涉及小数的数学运算。
Forward Pass(前向传播): 输入数据通过神经网络各层流动以产生输出的计算阶段,包括矩阵乘法和激活函数应用。
Foundation Model(基础模型): 在广泛数据上训练的大规模机器学习模型,可以适应各种下游任务,作为专业应用的基础。
Foundation Models(基础模型): 在广泛数据上训练的大规模通用 AI 模型,可以适应多种任务,包括 GPT-3、BERT 和 DALL-E 等具有数十亿参数的模型。
FP16(FP16 浮点数): 16 位浮点数表示法,减少内存使用并加速计算,同时保持许多机器学习应用的可接受精度。
FP16 Computation(FP16 计算): 在神经网络运算中使用 16 位浮点数算术,以减少内存使用并提高现代硬件加速器的计算速度。
FP32(FP32 浮点数): 32 位浮点数表示法,为数学计算提供标准精度,但所需内存和计算资源较高。
FP32 to INT8(FP32 转 INT8): 一种常见的量化转换,将 32 位浮点权重和激活值转换为 8 位整数,达到大约 4 倍的内存减少,同时保持可接受的准确性。
Framework Decomposition(框架分解): 将神经网络框架系统性分解为可映射到硬件的组件,以便高效地将操作分配到处理单元。
G
GDPR(通用数据保护条例): 欧盟法律,对个人数据处理提出严格要求,深刻影响隐私保护机器学习设计。
GEMM(通用矩阵乘法): 遵循模式 C = αAB + βC 的矩阵乘法运算,代表大多数神经网络运算的基本计算核心,包括全连接层和卷积层。
GE MV(通用矩阵 - 向量乘法): 计算矩阵和向量乘积的运算,常用于神经网络计算中,需要针对内存访问模式进行仔细优化。
Generalization(泛化): 机器学习模型在未见过的数据上表现良好的能力,通常通过多样化和高质量的训练数据来提高。
Generative Adversarial Networks(生成对抗网络): 一类机器学习系统,其中两个神经网络相互竞争,一个生成虚假数据,另一个试图检测虚假数据,从而生成高度逼真的合成数据。
Generative AI(生成式 AI): 能够根据训练数据学习的模式创建新内容(如文本、图像、音频或视频)的人工智能系统类别。
Glitches(故障): 电压、电流或信号的瞬时偏差,可能导致数字系统和电路的错误操作。
Governance Frameworks(治理框架): 负责 AI 开发的政策、程序、监督机制和问责结构的管理方法。
GPT3(GPT-3 模型): OpenAI 于 2020 年发布的 1750 亿参数语言模型,训练成本约 460 万美元,消耗电力约 1287 MWh。
GPT4(GPT-4 模型): 截至 2023 年 OpenAI 最先进的语言模型,reportedly using a mixture-of-experts architecture with approximately 1.8 trillion parameters and training costs exceeding $100 million.
GPU(图形处理单元): 专门的电子电路,旨在快速操纵和更改内存,以加速图像创建和并行处理任务。
Graceful Degradation(优雅降级): 系统设计原则,在面临部分故障或数据不可用时,服务继续以降低的能力运行,而不是完全失效。
Gradient Accumulation(梯度累积): 一种通过在多次小批量更新模型参数之前累积梯度,模拟更大批量大小的技术,允许在内存有限的情况下训练。
Gradient Clipping(梯度裁剪): 防止梯度爆炸的正则化技术,通过限制反向传播过程中梯度的大小来实现,通常通过缩放超出阈值的梯度来完成。
Gradient Compression(梯度压缩): 分布式训练中通过压缩计算节点之间交换的梯度信息来减少通信开销的技术。
Gradient Descent(梯度下降): 一种优化算法,通过迭代调整神经网络参数,沿着最小化损失函数的方向更新,利用梯度确定更新方向和幅度。
Gradient Synchronization(梯度同步): 分布式训练中,局部计算的梯度在设备间聚合的过程,以确保所有设备一致地更新其参数。
Gradient-based Pruning(基于梯度的剪枝): 一种剪枝方法,在训练过程中利用梯度信息识别梯度幅度较小的神经元或滤波器,这些神经元对减少损失函数贡献较小,可以安全移除。
Graphics Processing Unit(图形处理单元): 最初为图形渲染设计的专用处理器,提供高效神经网络计算和训练所需的并行处理能力。
Graphics Processing Unit (GPU)(GPU 图形处理单元): 最初为图形渲染设计的专用处理器,提供大规模并行计算能力,适合神经网络计算。
Green AI Metrics(绿色 AI 指标): 衡量 AI 系统环境影响的专用性能指标,包括碳足迹、能源效率和资源利用等,贯穿 ML 生命周期。
Green Computing(绿色计算): 以环境负责的方式设计、制造、使用和处置计算机及计算机系统的实践。
Green500(绿色 500 强): 评估全球超级计算机的能源效率的排名系统,基于每瓦特浮点运算数(FLOPS)而非原始计算性能。
Grey-box Attack(灰盒攻击): 攻击者对模型有部分了解的对抗攻击,如知道架构但不知道具体参数或训练数据。
Groupwise Quantization(分组量化): 将参数分为多个组,每组共享量化参数的量化方法,比层级方法提供更细粒度的控制。
GRU(门控循环单元): LSTM 的一种简化变体,使用更少的门控机制,同时保持捕捉序列数据中长期依赖关系的能力。
H
Hardware Abstraction(硬件抽象): ML 框架中提供统一接口以访问多种计算硬件(CPU、GPU、TPU、加速器)的层,同时处理设备特定的优化和内存管理。
Hardware Acceleration(硬件加速): 使用专用计算硬件比在通用处理器上运行软件更快、更高效地执行某些操作。
Hardware Accelerator(硬件加速器): 专门设计用于高效执行特定类型计算的硬件,如用于并行处理的 GPU 或用于机器学习工作负载的 TPU。
Hardware Constraint Optimization(硬件约束优化): 将 ML 算法和模型适配到移动和嵌入式设备的内存、计算和功耗限制内的技术。
Hardware Redundancy(硬件冗余): 关键硬件组件的重复,以通过投票机制提供备份功能,提高系统可靠性。
Hardware Trojan(硬件木马): 在制造过程中嵌入硬件组件的恶意修改,通常在正常条件下处于休眠状态,但在特定条件触发时表现出有害行为。
Hardware-Aware Design(硬件感知设计): 专门针对目标硬件平台优化神经网络架构的设计实践,考虑内存层次结构、计算单元和数据移动模式等因素,以最大化效率。
Hardware-Software Co-Design(硬件软件协同设计): 硬件加速器和软件算法联合优化的协作设计方法,以实现最大效率和性能。
HDFS (Hadoop Distributed File System)(Hadoop 分布式文件系统): 一种设计用于在普通硬件集群上存储大数据集的分布式文件系统,为大数据应用提供可扩展性和容错性。
Heartbeat Mechanisms(心跳机制): 系统组件之间定期发送的信号,用于监测系统健康状态和故障检测,确保及时故障恢复。
Hidden Layer(隐含层): 神经网络中介于输入层和输出层之间的中间层,通过学习的权重和激活函数转换数据,学习抽象表示。
Hidden State(隐状态): 递归神经网络的内部记忆,携带来自先前时间步的信息,使网络能够跨序列输入保持上下文。
Hierarchical Processing(分层处理): 多层次系统架构,数据和智能在计算堆栈的不同层级之间流动,从传感器到边缘设备再到云系统。
Hierarchical Processing Pattern(分层处理模式): 将系统组织为边缘、区域和云等层次,基于可用资源和能力共享责任,优化计算谱上的资源使用。
High Bandwidth Memory (HBM)(高带宽内存): 通过 3D 堆叠和宽接口提供比传统 DRAM 高得多带宽的先进内存技术,关键用于数据密集型 AI 工作负载。
Homomorphic Encryption(同态加密): 一种加密技术,允许在加密数据上直接执行计算,而无需先解密,从而实现隐私保护的机器学习推理。
Horizontal Scaling(横向扩展): 通过添加更多机器或实例而不是升级现有硬件来增加系统容量,提供更好的容错能力和负载分配。
Hot Spares(热备份): 随时准备好即时替换故障组件的备份组件,无需中断系统操作,提供冗余。
Huber Loss(Huber 损失): 在回归中使用的稳健损失函数,与平方误差损失相比,对异常值不那么敏感,提高训练稳定性。
Human Oversight(人工监督): 人类判断应监督、纠正或停止自动化决策的原则,保持对 AI 系统的有意义控制。
Human-AI Collaboration(人机协作): 人类与 AI 系统之间的协同伙伴关系,各自发挥独特优势,更有效地解决复杂问题。
Hybrid Machine Learning(混合机器学习): 将多种机器学习范式(如云、边缘、移动和微型 ML)集成形成统一的分布式系统,利用互补优势。
Hybrid Parallelism(混合并行): 一种分布式训练方法,结合数据并行和模型并行的优点,针对超大模型训练。
Hyperparameter(超参数): 控制学习过程但不从数据中学习的配置设置,如学习率、批量大小或网络架构选择。
Hyperparameter Optimization(超参数优化): 寻找控制机器学习训练过程的超参数(学习率、批量大小、网络架构参数)最佳配置的过程。
Hyperparameters(超参数): 控制机器学习算法学习过程的配置设置,但不是从数据中学习的,如学习率、批量大小和网络架构参数。
Hyperscale Data Center(超大规模数据中心): 包含数千台服务器、占地面积广泛的大规模数据中心设施,旨在高效支持海量计算工作负载。
I
ImageNet(ImageNet 数据集): 一个包含 1400 多万张标注图像、跨越 2 万多个类别的大型视觉数据库,由斯坦福大学的李飞飞于 2009 年创建,其年度挑战赛对计算机视觉的突破性进展起到了重要推动作用。
Impact Assessment Frameworks(影响评估框架): 评估人道主义和发展背景下 AI 部署潜在社会、经济和环境影响的结构化方法论。
Imperative Programming(命令式编程): 一种编程范式,操作在遇到时立即执行,允许自然控制流和更简单的调试,但可能限制优化机会。
Inference(推理): 机器学习的一个阶段,训练好的模型对新输入数据进行预测,通常比训练需要更低的精度和计算资源。
Infrastructure as Code(基础设施即代码): 通过机器可读的配置文件而非手动过程管理和提供计算基础设施的实践,实现版本控制和自动化。
Instruction Set Architecture (ISA)(指令集架构): 软件与硬件之间的接口,定义处理器可以执行的指令集,包括数据类型和寻址模式。
Int8(Int8 整数): 用于量化神经网络的 8 位整数数值表示,减少内存使用并加速推理,同时尽量保持模型准确性。
Int8 Quantization(Int8 量化): 一种数值精度降低技术,用 8 位整数而不是 32 位浮点数表示模型权重和激活值,减少内存使用并在专用硬件上实现更快推理。
Intermittent Faults(间歇性故障): 偶尔和不可预测发生的硬件故障,时有时无,诊断起来具有挑战性。
Internet of Things(物联网): 嵌入传感器、软件和其他技术的物理对象网络,通过互联网相互连接和交换数据。
Interpretability(可解释性): 人类理解机器学习模型预测背后推理过程的程度,通常指固有透明的模型。
IoT Sensors(物联网传感器): 收集和传输环境或行为数据的物联网设备,通常在有限的电力预算和低带宽通信协议下运行。
Iterative Pruning(迭代剪枝): 一种逐步剪枝策略,分多次去除参数,每次去除后进行微调,使模型适应容量减少,通常比一次性剪枝获得更好的准确性。
J
JAX(JAX 库): 谷歌研究开发的数值计算库,结合了 NumPy 的 API 和函数式编程变换,包括自动微分、即时编译和自动向量化,适用于高性能机器学习研究。
JIT Compilation(即时编译): 分析和优化代码的即时编译技术,使框架能够平衡急切执行的灵活性与图优化的性能优势。
K
K-Anonymity(K 匿名性): 一种隐私保护技术,确保数据集中每条记录与至少 k-1 条其他记录不可区分,通过泛化准标识符实现。
Kernel(核函数): 卷积层中用于检测特定特征的小型可学习权重矩阵,通过卷积运算提取输入数据的特征,也称为滤波器。
Kernel Fusion(核融合): 一种优化技术,将多个计算操作合并为一个核,以减少内存传输并提高并行处理器的性能。
Key Performance Indicators(关键绩效指标): 用于评估机器学习系统成功和有效性的具体可测量指标,如准确性、精确率、召回率、延迟和吞吐量。
Keyword Spotting (KWS)(关键词识别): 在音频流中检测特定唤醒词或短语的技术,通常用于对功耗和延迟有严格限制的语音激活设备中。
Knowledge Distillation(知识蒸馏): 一种模型压缩技术,通过训练一个较小的“学生”网络模仿较大“教师”网络的行为,使用教师的软输出概率而不仅仅是硬标签进行训练。
L
L0-Norm Constraint(L0 范数约束): 一种正则化技术,计算模型中非零参数的数量,用于结构化剪枝,通过惩罚活跃权重的数量直接控制模型稀疏性。
Label Shift(标签偏移): 一种分布变化情况,目标标签的分布发生变化,而特征与标签之间的条件关系保持不变。
LAPACK(线性代数包): 扩展 BLAS 的线性代数运算库,包括矩阵分解、特征值问题和线性系统求解等高层线性代数运算,提供机器学习计算所需的数学基础。
Large Language Models(大规模语言模型): 具有数十亿或万亿参数、在海量文本语料库上训练的神经网络,能够理解和生成类人文本,适用于多种领域和任务。
Latency(延迟): 请求数据与数据交付之间的时间延迟,在需要即时响应的实时应用中至关重要。
Latency Constraints(延迟约束): 限制模型推理最大可接受延迟的实时要求,驱动对响应时间至关重要的部署场景中的优化决策。
Layer Normalization(层归一化): 对每个样本在特征维度上进行归一化的技术,常用于变压器架构中,以稳定训练过程。
Layerwise Quantization(逐层量化): 在单层内所有参数共享相同量化参数的量化粒度,提供计算效率但可能限制表示精度。
Learning Rate(学习率): 控制梯度下降优化过程中权重更新步长的超参数,直接影响训练稳定性和收敛速度。
Learning Rate Scheduling(学习率调度): 在训练过程中系统性地调整学习率,使用分步衰减、指数衰减或余弦退火等策略,以改善收敛和最终模型性能。
Lifecycle Assessment(生命周期评估): 系统评估产品或系统在整个生命周期内的环境影响,从原材料提取到处置。
Lifecycle Coherence(生命周期一致性): 确保 ML 开发的所有阶段与整体系统目标保持一致的原则,数据处理、模型架构和评估标准保持一致。
Linpack(Linpack 基准测试): 在阿贡国家实验室开发的基准,通过求解稠密线性方程组测量系统性能,因其在 Top500 超级计算机排名中的应用而闻名。
Load Balancing(负载均衡): 在混合专家模型中,确保计算负载和训练信号均匀分配的技术,防止专家崩溃,保持模型效率。
Lookup Table(查找表): 用更简单的数组索引操作替代运行时计算的数据结构,常用于性能优化。
LoRA Technology(LoRA 技术): 一种无线通信协议,支持物联网设备在超过 15 公里的距离内以极低的功耗通信,适用于农业和环境监测应用。
Loss Function(损失函数): 量化神经网络预测与真实标签之间差异的数学函数,为训练算法提供优化目标。
Loss Scaling(损失缩放): 在混合精度训练中使用的技术,在反向传播前将损失乘以一个大因子,以防止在低精度格式下梯度下溢。
Lottery Ticket Hypothesis(彩票票据假说): 大规模神经网络中存在稀疏子网络的理论,这些子网络在适当初始化时单独训练可以实现与完整网络相当的准确性,同时显著减小网络规模。
Low-Rank Adaptation(低秩适应): 一种参数高效的微调方法,通过低秩矩阵近似权重更新,减少可训练参数,同时保持适应能力。
Low-Rank Factorization(低秩分解): 将大权重矩阵近似为较小矩阵乘积的矩阵分解技术,减少神经网络层所需的参数和计算操作。
LSTM(长短期记忆网络): 一种递归神经网络架构,设计用于通过门控机制处理长期依赖关系,控制信息流。
M
Machine Consciousness(机器意识): 指人工系统可能出现的自我意识,这一前沿研究领域探索机器是否能够发展出主观体验。
Machine Learning(机器学习): 人工智能的一个分支,使系统能够通过数据和经验自动提升任务表现,无需显式编程。
Machine Learning Accelerator (ML Accelerator)(机器学习加速器): 专为高效执行机器学习工作负载而设计的硬件,通过优化矩阵运算、内存层次和并行处理单元提升性能。
Machine Learning Framework(机器学习框架): 为机器学习模型的设计、训练和部署提供工具和抽象的软件平台,连接用户应用与底层基础设施,支持计算图、硬件优化和工作流编排。
Machine Learning Frameworks(机器学习框架库): 如 TensorFlow、PyTorch 等,提供开发、训练和部署机器学习模型的工具、API 和抽象的软件库和平台。
Machine Learning Lifecycle(机器学习生命周期): 涵盖机器学习系统开发、部署和维护所有阶段的结构化、迭代过程,从问题定义到持续监控和改进。
Machine Learning Operations(机器学习运维): 专注于通过自动化、监控和管理整个 ML 流水线,将机器学习模型推向生产的实践和工具集。
Machine Learning Operations (MLOps)(MLOps 机器学习运维): 通过自动化流水线,实现机器学习模型在生产环境中可靠、高效部署与维护的工程实践。
Machine Learning Security(机器学习安全): 在整个机器学习生命周期内,保护数据、模型和基础设施免受未授权访问、篡改或破坏的措施。
Machine Learning Systems Engineering(机器学习系统工程): 专注于构建可靠、高效、可扩展 AI 系统的工程学科,贯穿数据采集、部署和运维,强调资源感知和系统级优化。
Machine Unlearning(机器遗忘): 无需完全重新训练,通过技术手段移除特定数据对已训练模型的影响,支持数据删除权利。
Macro Benchmarks(宏观基准测试): 评估完整机器学习模型的测试方法,用于理解架构选择和组件交互对整体系统行为和性能的影响。
Magnitude-based Pruning(基于幅值的剪枝): 最常见的剪枝方法,移除绝对值最小的参数,假设幅值较小的权重对模型输出贡献较小。
Mapping Optimization(映射优化): 将神经网络操作分配到硬件资源的过程,目标是最小化通信开销并最大化计算单元利用率。
Masking(掩码处理): 一种匿名化技术,通过修改或隐藏敏感值,使其无法直接追溯到原始数据主体。
Megawatt-hour(兆瓦时): 能量单位,等于一兆瓦功率持续一小时,常用于衡量数据中心等大型设施的用电量。
Membership Inference Attack(成员推断攻击): 通过分析模型行为和输出,判断某个数据点是否被用于模型训练的攻击方式。
Membership Inference Attacks(成员推断攻击): 通过分析模型行为,推断特定数据是否包含在训练集中的隐私攻击。
Memory Bandwidth(内存带宽): 单位时间内可读写内存的数据量,常成为内存密集型机器学习任务的瓶颈。
Memory Hierarchy(内存层次结构): 不同速度和容量的内存系统组织方式,从高速片上缓存到较慢的主存。
Meta-learning(元学习): “学习如何学习”的过程,使模型能用极少数据快速适应新任务,尤其适合设备端个性化。
Metadata(元数据): 描述数据集的附加信息,包括采集细节、质量指标、验证状态等,有助于数据管理。
Micro Benchmarks(微基准测试): 专门评估机器学习系统中单个组件或特定操作(如张量运算、神经网络层)的工具。
Microcontroller(微控制器): 集成处理器、内存和可编程 I/O 的单芯片小型计算机,常用于嵌入式系统。
Mini-batch Gradient Descent(小批量梯度下降): 用一小部分训练样本同时计算梯度并更新权重的训练方法,兼顾效率和梯度估计质量。
Mini-batch Processing(小批量处理): 在小批量样本上计算梯度的优化方法,平衡批处理效率与随机方法的内存约束。
Minimax(极小极大策略): 博弈论中的决策策略,旨在对抗性场景下最小化最大可能损失。
Mixed Precision Training(混合精度训练): 在神经网络训练中不同部分采用不同数值精度(如 16 位和 32 位浮点),以减少内存占用并提升训练速度。
Mixed-precision Computing(混合精度计算): 在不同计算阶段采用不同数值精度,如矩阵乘法用 FP16,累加用 FP32。
Mixed-precision Training(混合精度训练): 结合 FP16 和 FP32 等不同数值精度,优化内存和计算速度,同时保持训练稳定性的训练方法。
Mixture of Experts(专家混合模型): 采用多个专用子模型(专家)和门控机制,将输入路由到最相关专家,实现高效扩展和稀疏性。
ML Lifecycle(ML 生命周期): 指导机器学习系统开发、评估和持续改进的迭代过程,涵盖从数据收集到模型监控的各阶段,并通过反馈循环实现持续适应。
ML Systems(ML 系统): 由数据、学习算法和计算基础设施三大核心组成的集成计算系统,支持训练和推理。
ML Systems Spectrum(ML 系统谱系): 从资源丰富的云端到极度受限的嵌入式设备的机器学习系统部署范围,不同场景需采用不同优化策略和权衡。
MLCommons(MLCommons 组织): 制定和维护机器学习系统行业标准基准(如 MLPerf 训练和推理评测套件)的组织。
MLOps(MLOps 工程): 管理机器学习系统全生命周期的工程学科,将 ML 开发与运维实践结合,实现可靠的生产部署。
MLPerf(MLPerf 基准): 行业标准基准套件,提供多种深度学习任务的标准化训练和推理测试,便于公平比较机器学习系统。
MLPerf Inference(MLPerf 推理基准): 评估不同部署环境(如云、移动、嵌入式)下机器学习推理性能的基准框架。
MLPerf Mobile(MLPerf 移动基准): 专为智能手机和移动设备设计的基准,测量在严格功耗和内存约束下的延迟和响应能力。
MLPerf Tiny(MLPerf 微型基准): 针对物联网、可穿戴设备和微控制器等极低功耗 AI 系统的基准测试。
MLPerf Training(MLPerf 训练基准): 通过测量达到目标准确率所需时间、吞吐量和资源利用率,评估不同硬件平台的机器学习训练性能。
MNIST(MNIST 数据集): 包含 7 万张 28×28 像素手写数字图像的数据库,被誉为计算机视觉领域的“Hello World”。
Mobile Machine Learning(移动端机器学习): 直接在智能手机、平板等便携式电池设备上执行机器学习模型,实现个性化和实时响应。
Mobile ML(移动 ML 系统): 为智能手机、平板等移动设备优化的机器学习系统,兼顾计算效率和推理准确性,实现本地推理。
Mobile-optimized Architectures(移动优化架构): 专为移动端部署设计的神经网络结构,强调参数高效、计算速度和能耗控制。
MobileNet(MobileNet 网络): 采用深度可分离卷积的高效神经网络架构,参数量约为传统模型的 1/50,适合智能手机部署。
Mode Collapse(模式崩溃): 生成模型只输出有限种类结果,忽略训练数据多样性,未能捕捉完整分布的失败模式。
Model Cards(模型卡片): 为机器学习模型提供结构化信息的文档框架,包括用途、性能特征和局限性。
Model Compression(模型压缩): 在保持准确性的前提下,减少机器学习模型体积和计算需求的技术,使其能在资源受限设备上部署。
Model Deployment(模型部署): 将训练好的机器学习模型集成到生产系统中,对新数据进行预测并为用户提供价值的过程。
Model Drift(模型漂移): 由于数据模式、用户行为或环境条件变化,导致机器学习模型性能随时间下降的现象。
Model Evaluation(模型评估): 通过多种指标和验证方法系统评估机器学习模型性能,判断其是否满足要求并可部署。
Model Extraction(模型提取): 通过系统性查询模型 API,观察输入输出行为,窃取或重建机器学习模型的过程。
Model Inversion Attack(模型反演攻击): 通过分析模型输出和置信度,试图重建训练数据或推断数据集敏感信息的攻击方式。
Model Optimization(模型优化): 系统性优化机器学习模型,提高效率同时保持效果,权衡准确率、计算成本、内存、延迟和能效。
Model Parallelism(模型并行): 将神经网络模型拆分到多个设备上,每台设备负责计算部分网络的分布式训练策略。
Model Pruning(模型剪枝): 从已训练神经网络中移除不必要的权重、神经元或连接,以减少模型体积和计算需求。
Model Quantization(模型量化): 降低机器学习模型数值表示精度(如从 32 位降为 8 位整数),以减小模型体积并提升推理速度。
Model Registry(模型注册表): 集中存储、版本管理和管理已训练模型及其元数据的仓库,便于模型治理和部署。
Model Serving(模型服务): 通过 API 暴露已部署机器学习模型的基础设施和系统,支持大规模预测请求,满足延迟和吞吐要求。
Model Training(模型训练): 利用机器学习算法从训练数据中学习模式,调整模型参数以最小化预测误差,构建可用预测系统的过程。
Model Uncertainty(模型不确定性): 机器学习模型未能完全捕捉底层数据生成过程复杂性,导致预测存在不确定性。
Model Validation(模型验证): 在独立数据集上测试机器学习模型,评估其泛化能力,确保在未见数据上表现可靠。
Model Versioning(模型版本管理): 系统跟踪和管理不同版本机器学习模型(包括参数、训练数据和性能指标),便于比较和回滚。
Model Watermarking(模型水印): 在机器学习模型中嵌入可验证所有权签名的技术,用于检测未授权使用或证明知识产权归属。
Momentum(动量): 优化技术,通过跨迭代累积速度向量,帮助梯度下降跳出局部极小值,加速一致梯度方向的收敛。
Monitoring(监控): 在生产环境中持续观测和测量机器学习系统性能、数据质量和运行指标,及时发现问题并触发维护。
Monte Carlo Dropout(蒙特卡洛 Dropout): 推理时多次前向传播并使用不同 Dropout 掩码,以估计模型预测不确定性的方法。
Moore’s Law(摩尔定律): 芯片上晶体管数量约每两年翻一番,计算机成本减半的观察规律。
Moores Law(摩尔定律): 英特尔联合创始人戈登·摩尔 1965 年提出,晶体管密度每两年翻倍,硬件进步遵循该趋势,AI 算法效率 7 年提升 44 倍。
Multi-agent Approach(多智能体方法): 多个 AI 智能体协作、协商或竞争解决复杂问题的系统架构,实现分工和专业化。
Multi-head Attention(多头注意力): 采用多个并行注意力头,每个关注输入的不同方面,同时捕捉多种关系的注意力机制。
Multi-layer Perceptron(多层感知机): 输入与输出之间有一个或多个隐藏层的前馈神经网络,通过密集连接和激活函数学习非线性映射。
Multicalibration(多重校准): 确保模型预测在交叉子群体间保持校准的公平性技术,解决复杂人口统计交互问题。
Multilayer Perceptron(多层感知机): 输入与输出层之间有一个或多个隐藏层的前馈神经网络,能够学习数据中的非线性关系。
Multimodal AI(多模态 AI): 能够同时处理和理解多种类型数据(如文本、图像、音频、视频)的 AI 系统,实现更全面的理解和交互。
Mycin(Mycin 专家系统): 斯坦福大学 1976 年开发的早期大型专家系统,用于诊断血液感染,代表了 AI 从通用智能转向领域知识捕捉的转变。
N
Narrow AI(窄域人工智能): 设计用于在特定任务上表现出色的 AI 系统,但缺乏跨多样问题领域泛化的能力,与人工通用智能相对。
NAS-generated Architecture(NAS 生成的架构): 通过自动化神经架构搜索发现的神经网络架构,而非手动设计,通常通过对设计空间的全面探索实现更好的效率 - 准确性权衡。
Network Structure Modification(网络结构修改): 改善神经网络效率的架构变更,包括深度可分离卷积、瓶颈层和高效注意力机制等技术,降低计算复杂度。
Neural Architecture Search(神经架构搜索): 一种自动化方法,利用机器学习算法通过搜索层、连接和超参数的可能组合,发现最优神经网络架构。
Neural Engine(神经引擎): 专为机器学习推理和训练设计的硬件加速器,如苹果的神经引擎或谷歌的 Edge TPU,优化用于设备端 AI 工作负载。
Neural Network(神经网络): 由相互连接的节点组成的计算模型,组织成层,通过可调节的连接权重学习将输入映射到输出。
Neural Processing Unit (NPU)(神经处理单元): 专为加速神经网络运算和机器学习计算而设计的处理器,优化用于 AI 工作负载的并行处理。
Neuromorphic Computing(神经形态计算): 受生物神经网络结构和功能启发的计算架构,旨在比传统数字计算机更高效地处理信息。
Non-IID Data(非独立同分布数据): 样本在设备或时间上分布不均匀的数据,给联邦学习的收敛和泛化带来挑战。
NoSQL(非关系型数据库): 一种数据库系统类别,旨在处理大量非结构化或半结构化数据,具有灵活的模式,常用于大数据应用。
Numerical Precision Optimization(数值精度优化): 模型优化的一个维度,涉及数值值的表示和处理,包括将高精度值映射到低位表示的量化技术。
O
Observability(可观测性): 通过指标、日志和追踪提供系统行为的全面监控方法,从外部输出理解内部状态。
OLAP (Online Analytical Processing)(在线分析处理): 针对大数据集复杂分析查询优化的数据库方法,通常用于数据仓库中的商业智能。
OLTP (Online Transaction Processing)(在线事务处理): 针对频繁、短小事务和实时处理优化的数据库方法,常用于操作性应用中。
On-chip Memory(片上内存): 直接集成在处理器芯片上的快速内存,包括缓存和临时存储器,提供高带宽和低延迟的数据访问。
On-device Learning(设备端学习): 直接在部署的硬件设备上进行机器学习模型的本地适应或训练,无需依赖于与集中式服务器的持续连接。
One-shot Pruning(一次性剪枝): 在单次操作中移除大部分参数的剪枝策略,通常随后进行微调以恢复准确性,简单但可能需要更激进的微调。
Online Inference(在线推理): 实时预测服务,处理单个请求并保持低延迟,适用于需要即时响应的交互式应用。
ONNX(开放神经网络交换): 一种标准化的机器学习模型表示格式,实现不同框架之间的互操作性,允许在一种框架中训练的模型在另一种框架中部署。
ONNX Runtime(ONNX 运行时): 跨平台推理引擎,通过操作符融合和内核调优等技术优化机器学习模型,提高推理速度,减少计算开销。
Optimizer(优化器): 在训练过程中调整模型参数以最小化损失函数的算法,常见的有 SGD(随机梯度下降)、Adam 和 RMSprop 等。
Orchestration(编排): 多个 AI 系统或智能体协同工作的协调和管理,确保跨分布式智能系统的正确顺序、通信和资源分配。
Outlier Detection(异常值检测): 识别显著偏离正常模式的数据点的过程,可能代表错误、异常或有价值的稀有事件。
Overfitting(过拟合): 模型过于精确地学习训练数据的细节,以至于无法对新的、未见过的样本进行泛化的现象,通常表现为训练准确率高但验证性能差。
Oxide Breakdown(氧化层击穿): 由于过度电场应力导致的晶体管氧化层失效,造成永久性硬件故障。
P
Padding(填充): 卷积网络中在输入边界周围添加零或其他值的技术,以控制输出特征图的空间维度。
Paradigm Shift(范式转变): 科学方法的根本变化,例如 1990 年代从符号推理转向统计学习,以及 2010 年代从浅层学习转向深度学习,要求研究人员放弃既定方法,采用截然不同的方法。
Parallelism(并行性): 同时执行多个计算任务或操作的能力,是实现神经网络处理高性能的基础。
Parameter(参数): 神经网络的可学习组件,包括权重和偏置,在训练过程中调整以最小化损失函数。
Parameter Efficient Finetuning(参数高效微调): 如 LoRA 和 Adapters 等方法,仅更新不到 1% 的模型参数,同时实现完全微调性能,将内存需求从 GB 级降低到 MB 级。
Partitioning(分区): 一种数据库技术,根据特定标准将大数据集划分为较小、可管理的片段,以提高查询性能和系统可扩展性。
Perceptron(感知机): 神经网络的基本构建块,由加权输入、偏置项和激活函数组成,产生单一输出。
Performance Insights(性能洞察): 通过监控生产机器学习系统获得的分析观察,揭示模型准确性、系统效率或用户体验的改进机会。
Performance-efficiency Scaling(性能效率缩放): 描述计算效率改进如何转化为不同模型架构和训练方案的性能提升的数学关系。
Permanent Faults(永久性故障): 持续存在的硬件缺陷,直到修复或更换组件才会消失,持续影响系统行为。
Perplexity(困惑度): 语言模型对文本预测的好坏的度量,计算为 2^(交叉熵损失),值越低表示预测能力越强。
Personalization Layers(个性化层): 模型组件,通常是最后的分类层,针对用户特定数据进行本地调整,同时保持共享的主干层不变。
Physical Attack(物理攻击): 直接操纵或篡改计算硬件,以破坏机器学习系统的安全性和完整性的攻击,绕过传统软件防御。
Pipeline Jungle(流水线丛林): 复杂的、相互依赖的数据处理流水线变得难以维护、调试和修改的反模式,导致技术债务和操作复杂性。
Pipeline Parallelism(流水线并行): 一种模型并行形式,将模型的不同层放在不同设备上,数据在它们之间以流水线方式流动,允许同时处理多个批次。
Pooling(池化): 卷积网络中的下采样操作,减少空间维度同时保留重要特征,通常使用局部区域的最大值或平均值操作。
Positional Encoding(位置编码): 在 Transformer 架构中注入序列中标记位置的信息的方法,因为 Transformer 缺乏固有的序列处理能力。
Post-hoc Explanations(事后解释): 在模型训练后应用的解释方法,将模型视为黑箱,从输入输出行为推断推理模式。
Post-training Quantization(后训练量化): 在已训练模型上应用的量化方法,无需修改训练过程,通常涉及在代表性数据上校准以确定最佳量化参数。
Power Usage Effectiveness(电源使用效率): 衡量数据中心能源效率的指标,计算为总设施能耗与 IT 设备能耗的比率。
Power Usage Effectiveness (PUE)(电源使用效率 (PUE)): 用于数据中心的能效测量指标,计算为总设施电力消耗与 IT 设备电力消耗的比率。
Precision(精度): 数值计算中用于表示数字的位数,影响机器学习系统的计算准确性和资源需求。
Precision Agriculture(精准农业): 利用包括 GPS、传感器和机器学习等技术,通过精确监测和管理作物投入(如水、肥料和农药)来优化农业实践。
Prefetching(预取): 系统优化技术,在数据被需要之前将其加载到内存中,重叠数据加载和计算,以减少空闲时间并提高训练吞吐量。
Principal Component Analysis(主成分分析): 一种降维技术,识别数据中最重要的变化方向,在保留 90% 以上数据方差的同时降低计算复杂度。
Principle of Least Privilege(最小特权原则): 一种安全概念,用户仅获得完成其工作职能所需的最低访问权限,以降低安全风险。
Privacy Budget(隐私预算): 差分隐私中的一个概念,表示在所有查询或计算中允许的隐私损失总量,每次操作消耗该有限预算的一部分。
Privacy-preserving Machine Learning(隐私保护机器学习): 在保护用于训练或推理的数据隐私的同时,进行机器学习的技术和方法。
Privacy-preserving Techniques(隐私保护技术): 旨在保护机器学习中个人隐私的方法,包括差分隐私、联邦学习和本地处理。
Privacy-Utility Tradeoff(隐私 - 效用权衡): 保护个人隐私与保持数据对机器学习有用性之间的基本矛盾,需要通过差分隐私等技术进行仔细平衡。
Problem Definition(问题定义): 机器学习开发的初始阶段,明确指定目标、约束、成功指标和操作要求,以指导后续的所有开发决策。
Programmatic Logic Controllers(可编程逻辑控制器): 用于制造和物联网环境的工业控制系统,可与机器学习模型集成,实现操作技术上下文中的自动化决策。
Progressive Enhancement Pattern(渐进增强模式): 一种设计模式,在最小资源条件下建立基本功能,随着额外资源的可用性逐步纳入高级功能。
Prompt Engineering(提示工程): 设计和优化文本提示的实践,以有效地与大型语言模型进行通信,并从 AI 系统中获得期望的输出。
Protein Folding Problem(蛋白质折叠问题): 预测蛋白质三维结构的科学挑战,利用深度学习方法如 AlphaFold 实现突破性准确性。
Pruning(剪枝): 一种模型压缩技术,移除神经网络中不必要的连接或神经元,以减少模型体积和计算需求,而不显著影响性能。
Pseudonymization(伪匿名化): 一种隐私技术,用人造标识符替换直接标识符,同时保持追踪记录以便分析的能力。
PyTorch(PyTorch 框架): 由 Facebook AI Research 实验室开发的深度学习框架,强调动态计算图、急切执行和直观的 Python 集成,特别受研究和实验欢迎。
Q
Quantization(量化): 一种模型压缩技术,将模型参数和激活的精度从高精度格式(如 32 位浮点)降低到低精度(如 8 位整数),显著减少内存使用和计算需求。
Quantization Granularity(量化粒度): 量化参数应用的级别,从每个张量(最粗粒度)到每个通道或每组(更细粒度),粒度越细通常保留更多准确性,但需要更多存储。
Quantization-aware Training(量化感知训练): 一种训练方法,在训练过程中模拟量化效应,使模型适应降低精度,通常比后训练量化获得更好的准确性。
Quantum Machine Learning(量子机器学习): 量子计算与机器学习的交叉领域,探索量子算法和量子计算机如何增强或转变机器学习任务。
Queries Per Second (QPS)(每秒查询数 (QPS)): 衡量系统每秒处理多少个推理请求的性能指标,常用于评估生产环境中的吞吐量。
Query Key Value(查询键值): 注意力机制的三个组成部分,其中查询确定要查找的内容,键表示可用内容,值包含实际信息以进行加权和组合。
R
Real-time Processing(实时处理): 数据可用时即刻处理,并保证响应时间满足严格时序约束的能力,以实现即时决策。
Receptive Field(感受野): 影响特定神经元输出的输入区域,决定该神经元可以检测的模式的空间范围。
Rectified Linear Unit(修正线性单元): 一种激活函数,正值输出输入,负值输出零,因其计算简单和避免梯度消失而广泛用于现代神经网络。
Recurrent Neural Network(递归神经网络): 一种用于序列数据处理的神经网络,具有创建循环的连接,允许信息在时间步之间持续。
Regularization(正则化): 通过添加约束或惩罚来防止神经网络过拟合的技术,包括 dropout、权重衰减和数据增强等方法。
ReLU(修正线性单元): 定义为 f(x) = max(0,x) 的修正线性单元激活函数,引入非线性同时保持计算效率,避免梯度消失问题。
Renewable Energy(可再生能源): 从自然界中不断补充的能源,包括太阳能、风能、水电、地热能和生物质能等。
Residual Connection(残差连接): 将层的输入与输出相加的跳跃连接,通过缓解梯度消失问题,使得非常深的网络能够训练。
ResNet(残差网络): 一种深度卷积架构,引入跳跃连接,使得数百层的网络能够训练并取得突破性表现。
Resource Paradox(资源悖论): 社会影响应用中的挑战,需求最迫切的地区往往缺乏传统技术部署所需的基础设施,需创新工程解决方案。
Resource-constrained Environments(资源受限环境): 计算能力、网络带宽或电力供应有限的部署环境,通常需要专门的系统设计和优化技术。
Responsible AI(负责任的 AI): 以道德、公平、透明和对社会有益的方式开发和部署 AI 系统的实践,同时最小化潜在的危害和偏见。
Retinal Fundus Photographs(视网膜眼底照片): 眼睛内部表面的医学图像,包括视网膜、视神经和血管,常用于眼病诊断和医学 AI 系统训练。
Reverse-mode Differentiation(反向模式微分): 一种自动微分技术,通过反向遍历计算图计算梯度,对于输入多、输出少的函数高效,理想用于神经网络训练。
Reward Hacking(奖励黑客攻击): AI 系统利用奖励函数的意外方面最大化得分,同时违反预期目标的现象。
RLHF(人类反馈强化学习): 一种训练方法,利用人类偏好引导模型行为,使 AI 系统更好地与人类价值观和意图对齐。
RMSprop(均方根传播): 一种自适应学习率优化算法,保持平方梯度的移动平均值,自动调整训练过程中每个参数的学习率。
Robust AI(稳健 AI): 人工智能系统在面对内部错误、外部干扰和环境变化时,保持性能和可靠性的能力。
Robustness(稳健性): 模型在输入变化、环境变化或对抗性条件下,保持稳定和一致性能的能力。
Robustness Metrics(稳健性度量): 评估模型在各种扰动下稳定性的定量指标,包括对抗准确率、认证稳健性界限和分布变化下的性能。
Rollback(回滚): 在生产中检测到问题时,恢复到先前稳定版本的过程,以确保服务连续性。
Roofline Analysis(屋顶线分析): 一种性能建模技术,通过绘制操作强度与峰值性能的关系图,识别系统是受内存限制还是计算限制,从而指导优化工作。
S
Scalability(可扩展性): 机器学习系统处理不断增加的数据、用户或计算需求的能力,而不会显著降低性能或用户体验。
Scaling Laws(缩放法则): 量化模型性能与训练资源之间关系的经验法则,遵循模型大小、数据集大小和计算预算的可预测幂律关系。
Scan Chains(扫描链): 处理器中的专用测试路径,提供对内部寄存器和逻辑的访问,用于全面的硬件测试和故障检测。
Schema(模式): 数据的结构和格式定义,指定数据类型、字段名称和关系,对于数据验证和处理一致性至关重要。
Schema Evolution(模式演变): 随着时间推移,修改数据模式的过程,同时保持向后兼容性,确保依赖系统和应用的持续功能。
Schema-on-read(按读模式): 数据湖中使用的一种方法,数据结构在读取时定义和强制执行,而不是在存储时提供对多种数据类型的灵活性。
Scope 1 Emissions(范围 1 排放): 组织拥有或控制的来源直接产生的温室气体排放,如现场燃料燃烧和公司车辆。
Scope 2 Emissions(范围 2 排放): 购买的电力、蒸汽、供热或制冷产生的间接温室气体排放。
Scope 3 Emissions(范围 3 排放): 组织价值链中发生的所有其他间接温室气体排放,包括制造、运输和使用后处理。
Secure Aggregation(安全聚合): 一种密码学协议,使联邦学习服务器能够计算聚合模型更新,而无需访问单个客户端贡献,从而增强隐私保护。
Secure Computation(安全计算): 使多个参与方能够共同计算私有输入的函数,而不向彼此透露这些输入的密码协议。
Secure Multi-party Computation(安全多方计算): 一种密码学方法,允许多个参与方共同计算一个函数,而不透露各自的私有输入。
Segmentation Maps(分割图): 对物体进行像素级分类的详细注释,提供最细粒度的标记信息,但需要显著更多的存储和处理资源。
Selective Computation(选择性计算): 根据输入复杂性或当前需求动态分配处理资源的计算策略,通过避免不必要的计算提高效率。
Self Supervised Learning(自监督学习): 一种机器学习范式,通过从未标记数据中预测输入的某些部分来学习表示,减少对手动标记数据集的依赖。
Semi-supervised Learning(半监督学习): 一种机器学习方法,利用标记和未标记数据进行训练,通过结构假设提高有限标签下的模型性能。
Sequential Neural Networks(序列神经网络): 设计用于处理随时间序列发生的数据的神经网络架构,保持对先前输入的记忆,以通知当前决策,对于预测行人运动模式等任务至关重要。
Serverless(无服务器): 云计算模型,基础设施由提供商自动管理,允许代码执行而无需担心服务器管理。
Service Level Agreement (SLA)(服务水平协议 (SLA)): 正式合同,规定生产服务的最低性能标准和正常运行时间保证,未达标将受到处罚。
Service Level Objective (SLO)(服务水平目标 (SLO)): 内部可靠性和性能指标的目标,如延迟、错误率和可用性,指导操作决策。
Shadow Deployment(影子部署): 测试策略,新模型版本在与生产模型并行处理实时流量的同时进行验证,而不影响用户可见结果。
Shallow Learning(浅层学习): 使用有限复杂度算法(如支持向量机和决策树)的机器学习方法,需要精心设计的特征,但无法像深度学习方法那样自动发现层次化表示。
Side-channel Attack(侧信道攻击): 利用通过计算系统物理实现泄露的信息(如功耗、电磁辐射或时间变化)进行的攻击。
Sigmoid(S 型激活函数): 一种将输入值映射到 0 和 1 之间的激活函数,历史上很受欢迎,但在深层网络中容易出现梯度消失问题。
Silent Data Corruption (SDC)(静默数据损坏): 计算或数据传输过程中未被检测到的错误,可能会在系统层中传播而不触发警报,从而损害结果。
SIMD (Single Instruction, Multiple Data)(单指令多数据): 一种并行计算架构,同时对多个数据元素应用相同操作,适用于规则的数据并行计算。
SIMT (Single Instruction, Multiple Thread)(单指令多线程): SIMD 的扩展,允许跨多个独立线程的并行执行,每个线程维护自己的状态和程序计数器。
Single-instance Throughput(单实例吞吐量): 关注单个模型实例处理请求速率的性能测量,与批量吞吐量指标形成对比。
Singular Value Decomposition(奇异值分解): 一种矩阵分解技术,将矩阵分解为三个矩阵的乘积,常用于低秩近似,通过保留最重要的奇异值来压缩神经网络层。
Skip Connection(跳跃连接): 绕过一个或多个层的直接连接,允许梯度更容易地流过深层网络,使得非常深的架构能够更好地训练。
Smallholder Farmers(小农户): 耕作面积小于 2 公顷的农民,尽管他们在全球粮食供应中占据重要地位,但往往缺乏现代农业技术和信贷的获取。
Social Impact Measurement(社会影响测量): 系统评估 AI 应用对社区和个人的影响,包括可及性、公平性、有效性和意外后果的指标。
Softmax(Softmax 激活函数): 一种将原始分数转换为概率分布的激活函数,使输出之和为 1,对于多类分类任务至关重要。
Software Fault(软件缺陷): 由于缺陷、错误或设计疏漏导致的软件系统中出现的非预期行为,可能会影响性能或危害安全。
Sparse Training(稀疏训练): 在整个训练过程中保持神经网络权重稀疏性的训练方法,减少计算和内存需求。
Sparse Updates(稀疏更新): 选择性地仅更新一部分模型参数的训练策略,基于其对性能的重要性或贡献,减少计算和内存开销。
Sparsity(稀疏性): 神经网络的特性,其中许多权重为零或接近零,可以通过专门的硬件支持和针对稀疏操作设计的算法来利用。
Spec CPU(SPEC CPU 基准): 由系统性能评估合作组织开发的标准化基准套件,通过真实应用而非合成测试测量处理器性能。
Spec Power(SPEC Power 基准): 在不同工作负载水平下测量服务器能效的基准方法,直接比较计算系统中的电力 - 性能权衡。
Specification Gaming(规范游戏): 当 AI 系统找到意想不到的方式来获得高奖励,技术上满足目标函数但违反预期目的时发生。
Speculative Decoding(推测解码): 自回归语言模型的一种优化技术,由较小模型生成草稿标记,然后由较大模型验证,从而加速推理同时保持质量。
Speculative Execution(推测执行): 处理器中的一种性能优化,在确认指令是否需要之前就执行它们,这可能会通过微架构侧信道意外暴露敏感数据。
SqueezeNet(SqueezeNet 网络): 一种紧凑的 CNN 架构,以 50 倍更少的参数实现 AlexNet 水平的准确性,表明巧妙的架构设计可以在不牺牲性能的情况下显著减小模型尺寸。
Stage-specific Metrics(阶段特定指标): 针对单个生命周期阶段量身定制的性能指标,如准备阶段的数据质量指标、建模阶段的训练收敛性指标和部署阶段的延迟指标。
State Space Models(状态空间模型): 通过保持压缩的记忆表示并增量更新来处理序列的神经架构,相较于 Transformer 注意力机制提供线性扩展优势。
Static Graph(静态图): 在执行开始之前完全定义的计算图,允许全面优化和高效部署,但要求所有操作在运行时指定,限制了灵活性。
Static Graphs vs Dynamic Graphs(静态图与动态图): ML 框架中表示计算的两种基本方法:静态图在执行前定义,允许优化但限制灵活性;动态图在执行过程中构建,允许灵活控制流但可能存在优化限制。
Static Quantization(静态量化): 一种量化方法,在校准时一次性确定量化参数,并在推理过程中保持固定,提供计算效率但适应性较差。
Statistical Learning(统计学习): 20 世纪 90 年代出现的机器学习时代,重点从基于规则的符号 AI 转向能够从数据中学习模式的算法,为现代数据驱动的人工智能方法奠定基础。
Stochastic Computing(随机计算): 利用随机位和概率运算执行算术运算的计算技术,可能比传统方法提供更好的容错能力。
Stochastic Gradient Descent(随机梯度下降): 一种梯度下降变体,使用单个训练示例或小批量而非整个数据集来估计梯度,减少内存需求并支持在线学习。
Stream Ingestion(流式摄取): 实时处理到达数据的模式,对于需要即时处理和低延迟响应的应用至关重要。
Stream Processing(流处理): 实时数据处理方法,处理持续流入的数据,能够对事件和模式检测做出即时响应。
Stride(步幅): 卷积滤波器在输入上移动的步长,控制输出的空间维度和滤波器应用之间的重叠程度。
Structured Pruning(结构化剪枝): 移除整个计算单元(如神经元、通道或层)的剪枝方法,生成比非结构化剪枝创建的稀疏矩阵更小的密集模型,更加适合硬件实现。
Stuck-at Fault(固定故障): 一种永久性硬件故障,信号线无论输入如何都固定在逻辑 0 或 1,导致计算错误。
Student System(学生系统): 丹尼尔·博布罗在 1964 年开发的早期 AI 程序之一,通过将英语代数文字问题转换为数学方程,展示了自然语言理解的能力,是符号 AI 领域的重要里程碑。
Student-teacher Learning(学生 - 教师学习): 知识蒸馏的核心机制,其中较小的学生网络从较大的教师网络学习,通常使用软目标提供比硬分类标签更多的信息。
Supervised Learning(监督学习): 一种机器学习方法,模型通过标记的训练示例学习,以对新的未标记数据进行预测。
Supply Chain Attack(供应链攻击): 在制造、分发或集成过程中,攻击者对硬件或软件组件进行攻击,可能影响多个下游系统。
Support Vector Machines(支持向量机): 利用“核技巧”寻找最优决策边界的机器学习算法,在深度学习兴起之前主导了相关竞赛,直到神经网络在 2010 年前后变得更加突出。
Sustainable AI(可持续 AI): 开发和部署人工智能系统的实践,旨在最小化对环境的影响,同时保持有效性和可及性。
Sustainable Development Goals(可持续发展目标): 联合国通过的 17 项全球目标,旨在到 2030 年应对紧迫的社会、经济和环境挑战,为 AI 在社会公益中的应用提供框架。
Swarm Intelligence(群体智能): 从分散、自组织系统中产生的集体智能,常受生物群体启发,应用于分布式机器学习系统和机器人技术。
Symbolic AI(符号人工智能): 早期的人工智能方法,试图通过符号操作和基于规则的系统实现智能,以 STUDENT 等程序为例,只能处理与其预编程模式匹配的输入。
Symbolic Programming(符号编程): 一种编程范式,计算通过抽象符号和表达式表示,先构建后执行,允许全面优化但需要显式执行阶段。
Synthetic Benchmark(合成基准): 旨在测量系统性能特定方面的人为测试程序,与基于真实应用和工作负载的基准测试相对。
Synthetic Data(合成数据): 使用算法、仿真或生成模型创建的人造数据,以补充真实世界数据集,解决数据可用性或隐私问题。
Synthetic Data Generation(合成数据生成): 创建人工数据集的过程,这些数据集近似真实数据的统计特性,同时降低隐私风险,避免直接暴露敏感信息。
System Efficiency(系统效率): 在算法、计算和数据效率维度上优化机器学习系统,最小化计算、内存和能源需求,同时保持性能。
System on Chip(系统级芯片): 将计算机或电子系统的大部分或全部组件(包括 CPU、GPU、内存和专用处理器)集成在单个芯片上的集成电路。
System-on-Chip (SoC)(片上系统 (SoC)): 包含计算机系统大部分或全部组件的集成电路,常用于移动设备和嵌入式系统,以实现空间和电源效率。
System-wide Sustainability(系统级可持续性): 一种全面的环境责任方法,考虑整个 AI 基础设施生态系统的影响,从数据中心到边缘设备,而不是单独优化各个组件。
Systems Integration(系统集成): 将各种组件和子系统组合成一个统一、功能完整的系统的过程,确保作为一个整体高效、可靠地运行。
Systems Thinking(系统思维): 一种理解复杂系统的方法,考虑各个组件如何相互作用和影响整个系统,在 ML 中尤其重要,因为数据、算法、硬件和部署环境必须有效协同工作。
Systolic Array(脉冲阵列): 一种专门的硬件架构,通过在处理元素网格中流动数据,高效执行矩阵运算,最小化数据移动和能量消耗。
T
Tail Latency(尾部延迟): 系统中最差的响应时间,通常测量为第 95 或第 99 百分位延迟,重要用于理解系统在峰值负载下的可靠性。
Tailored Inference Benchmarks(定制推理基准): 为特定部署环境或用例设计的专门性能测试,考虑独特的约束和优化需求。
Tanh(双曲正切激活函数): 一种将输入映射到 (-1,1) 范围的激活函数,零中心输出,有助于稳定基于梯度的优化,相较于 sigmoid 函数更为有效。
Targeted Attack(定向攻击): 一种数据中毒攻击,旨在导致特定输入或类别的错误分类,同时基本保持模型的整体性能。
Technical Debt(技术债务): 由于开发过程中 expedient 设计决策而累积的长期维护成本,特别是在 ML 系统中,由于数据依赖性和模型复杂性而问题严重。
Telemetry(遥测): 从分布式系统自动收集和传输性能数据和指标的能力,实现远程监控和分析。
Tensor(张量): 用于表示神经网络中数据的多维数组,推广了标量(0D)、向量(1D)和矩阵(2D)到更高维度。
Tensor Decomposition(张量分解): 将矩阵分解扩展到高阶张量的技术,通过将权重张量表示为较小张量的组合来压缩神经网络层。
Tensor Parallelism(张量并行): 一种分布式计算技术,将单个张量和操作划分到多个设备上,减少每个设备的内存需求,同时通过协调的并行执行保持计算效率。
Tensor Processing Unit(张量处理单元): 谷歌专为机器学习工作负载设计的定制应用特定集成电路,优化用于矩阵运算,采用脉冲阵列架构。
Tensor Processing Unit (TPU)(张量处理单元 (TPU)): 谷歌专为神经网络机器学习设计的定制应用特定集成电路,优化用于 TensorFlow 操作。
TensorFlow(TensorFlow 框架): 谷歌开发的综合机器学习框架,提供从研究到生产的整个 ML 流水线的工具,具有急切执行和基于图的计算,支持广泛的生态系统。
TensorRT(TensorRT 优化器): 英伟达的推理优化库,通过操作符融合和精度降低等技术,加速深度学习在 GPU 硬件上的推理。
Ternarization(三值量化): 一种极端量化技术,将权重限制为三种值(通常为 -1、0、+1),在保持比二值量化更多的表示能力的同时,实现显著压缩。
Test Time Compute(测试时计算): 推理过程中根据任务复杂性或重要性动态调整计算资源分配的能力,实现灵活的性能 - 准确性权衡。
Thermal Stress(热应力): 由于反复经历高低温循环而导致的硬件退化,可能导致材料疲劳和潜在故障。
Threshold for Activation(激活阈值): 神经元开始产生显著输出的输入水平,由权重、偏置和所选激活函数的组合决定,控制神经元何时对网络计算产生影响。
Throughput(吞吐量): 系统处理数据或完成操作的速率,通常以每秒操作数衡量,对训练大规模模型至关重要。
Time-to-accuracy(达到准确率所需时间): 机器学习模型在训练过程中达到预定准确率阈值所需的时间,作为训练效率评估的关键指标。
Tiny Machine Learning(微型机器学习): 在超受限设备(如微控制器和传感器)上执行机器学习模型的能力,工作在毫瓦到亚瓦特的功率范围内。
Tiny ML(微型 ML 系统): 设计用于在极度资源受限设备(如微控制器)上运行的机器学习系统,通常模型小于 1MB,功耗小于 150mW。
TinyML(微机器学习): 在微控制器和边缘设备上进行的机器学习,内存小于 1KB-1MB,功耗小于 1mW,使得在传统部署不可能的地方实现 AI。
Tokens(标记): 语言模型处理的文本单元,通常是单词或子词片段,像 GPT-3 这样的现代模型在数千亿个标记上进行训练。
TOPS(万亿次操作每秒): 计算性能的衡量标准,指示系统每秒可以执行多少万亿次操作。
TPU(张量处理单元): 谷歌的定制应用特定集成电路,专为加速机器学习工作负载中的张量操作而设计,相较于通用处理器提供显著的性能和能效提升。
Training(训练): 调整神经网络参数的过程,使用标记数据和优化算法最小化预测误差,提高性能。
Training-serving Skew(训练服务偏差): 模型训练与服务过程中特征预处理逻辑不一致,导致生产性能下降的问题。
Transfer Learning(迁移学习): 一种机器学习技术,利用在相关任务上获得的预训练模型的知识,允许在新任务上快速训练和更好性能,尤其是在数据有限时。
Transformer(变换器): 一种完全基于注意力机制的神经网络架构,消除了递归和卷积,在许多领域实现了最先进的性能。
Transformer Architecture(变换器架构): 一种基于注意力机制的神经网络架构,彻底改变了自然语言处理,并越来越多地应用于计算机视觉等其他领域。
Transient Faults(瞬态故障): 不会持续或造成永久性损害的临时硬件故障,但如果处理不当,可能导致计算错误。
Translation Invariance(平移不变性): 卷积网络识别模式的能力,无论其在输入中的位置如何,通过权重共享和池化操作实现。
Transparency(透明性): 关于 AI 系统如何构建、训练、验证和部署的开放性,包括数据来源、设计假设和局限性的披露。
Triple Modular Redundancy (TMR)(三模冗余 (TMR)): 一种容错技术,执行三次计算实例,通过多数投票确定正确结果。
Trusted Execution Environment(受信执行环境): 处理器内的安全区域,为代码和数据提供基于硬件的保护,确保即使在特权系统软件下也能保持机密性和完整性。
Tucker Decomposition(塔克分解): 一种张量分解方法,将奇异值分解推广到高阶张量,使用核心张量和因子矩阵,常用于压缩卷积神经网络层。
TV White Spaces(电视空白频段): 未使用的广播频率,可重新用于互联网连接,如 FarmBeats 系统所用,以扩展对偏远农业传感器和物联网设备的网络访问。
U
UCI Machine Learning Repository(UCI 机器学习库): 由加州大学欧文分校于 1987 年建立的广泛使用的机器学习数据集资源,包含超过 600 个数据集,被数千篇研究论文引用。
Uniform Quantization(均匀量化): 一种量化方法,将值的范围划分为均匀间隔,提供简单的实现但对于非均匀值分布可能次优。
Universal Approximation Theorem(普适逼近定理): 一个理论结果,证明具有足够宽度和非线性激活函数的神经网络可以逼近紧支域上的任何连续函数。
Unstructured Pruning(非结构化剪枝): 移除单个权重而保留整体网络架构的剪枝方法,创建稀疏权重矩阵,需要专门的硬件支持以实现计算优势。
Unstructured Sparsity(非结构化稀疏性): 一种模型稀疏性形式,单个权重被置为零而不遵循任何特定模式,创建不规则稀疏模式,需要专门的硬件支持以实现计算优势。
V
Validation Issues(验证问题): 在模型测试中发现的问题,表明性能差、过拟合、数据质量问题或其他必须在部署前解决的问题。
Value Alignment(价值对齐): AI 系统应追求与人类意图和伦理规范一致的目标的原则,解决将人类价值观编码到机器目标中的挑战。
Value-sensitive Design(价值敏感设计): 通过系统的利益相关者参与和对系统影响的伦理考虑,将人类价值观纳入技术设计的方法论。
Vanishing Gradient(消失梯度): 深度神经网络中的一个问题,梯度在反向传播时指数级减小,使得早期层难以有效学习。
Vanishing Gradient Problem(消失梯度问题): 训练深度神经网络时出现的挑战,梯度在反向传播时指数级减小,使得早期层难以有效训练。
Vector Operations(向量操作): 同时处理多个数据元素的计算操作,使神经网络中的元素级变换能够高效并行执行。
Vector-borne Diseases(媒介传播疾病): 通过昆虫或其他媒介传播的疾病,如由蚊子传播的疟疾,可通过机器学习驱动的检测系统进行监测和控制。
Versioning(版本控制): 跟踪数据集、模型和管道随时间变化的实践,实现 ML 系统的可重复性、回滚能力和审计跟踪。
Virtuous Cycle(良性循环): 深度学习中数据可用性、算法和计算能力的相互促进过程,推动整体进步的加速。
Vision-language Models(视觉 - 语言模型): 能够同时理解和推理视觉和文本信息的 AI 系统,实现图像字幕生成、视觉问答和多模态理解等任务。
Von Neumann Bottleneck(冯·诺依曼瓶颈): 由处理器和内存之间共享总线引起的性能限制,数据移动的成本超过计算成本。
W
Watchdog Timer(看门狗定时器): 监控系统执行并在系统无响应或卡住时触发恢复操作的硬件组件。
Water Usage Effectiveness(用水效率): 衡量数据中心用水效率的指标,计算为总水消耗与 IT 设备能耗的比率。
Waymo(Waymo 公司): 谷歌母公司 Alphabet Inc. 的子公司,代表了机器学习系统在自动驾驶汽车技术中最雄心勃勃的应用之一,展示了 ML 系统如何在安全关键环境中跨嵌入式系统到云基础设施。
Weak Supervision(弱监督): 通过启发式、远程监督或程序化方法获得的低质量标签的使用方法,而非人工专家标注。
Web Scraping(网络爬虫): 从网站提取数据以构建自定义数据集的自动化技术,需仔细考虑法律、伦理和技术限制。
Weight(权重): 决定神经元之间连接强度的可学习参数,在训练过程中调整以最小化损失函数。
Weight Freezing(权重冻结): 一种训练技术,在训练过程中固定大部分模型参数,仅允许特定层或组件更新,减少设备端适应的计算需求。
Weight Matrix(权重矩阵): 连接神经网络一层与另一层的权重的有组织集合,通过矩阵运算实现高效计算。
Weight Sharing(权重共享): 在不同空间位置使用相同参数的做法,如在卷积网络中,减少参数数量同时保持模式检测能力。
Whetstone(Whetstone 基准): 1964 年推出的早期基准,测量浮点运算性能,以 KIPS(每秒千条指令)为单位,成为第一个广泛采用的标准化性能测试。
White-box Attack(白盒攻击): 攻击者对模型的架构、参数、训练数据和内部工作原理有完全了解的对抗性攻击,使攻击策略高度有效。
Workflow Orchestration(工作流编排): 复杂 ML 流水线序列的自动化协调和管理,确保跨分布式系统的正确执行顺序、依赖关系管理和错误处理。
X
XLA(加速线性代数): 一个领域特定的线性代数操作编译器,通过为包括 CPU、GPU 和 TPU 在内的各种硬件平台生成高效代码,优化 TensorFlow 和 JAX 计算。
Z
Zero-day Vulnerability(零日漏洞): 软件或硬件中一个先前未知的安全缺陷,攻击者可以在开发者来得及创建和分发补丁之前利用该缺陷进行攻击。
Zero-shot Learning(零样本学习): 机器学习模型执行训练中从未见过的任务或对物体进行分类的能力,通常通过复杂的表示学习或大规模预训练实现。