阅读《智能体构建指南》,了解我对 AI 原生基础设施与智能体运行时的工程思考。

全站索引

全站术语表

从 AI 到云原生的常用概念与独特术语,一页快速索引与查找。

300 术语数量
23 分组数量

术语不是知识的终点,而是理解复杂系统的入口。

这里汇总了本站所有核心概念与独特术语,便于快速检索、归类与对照。

300 条结果

A

2

安全多方计算

Secure Multi-Party Computation

多方在不泄露各自输入的情况下联合计算函数的协议。

API 网关

API Gateway

管理和路由 API 请求的服务器。

B

6

边车模式

Sidecar Pattern

将辅助功能与主应用部署在一起的设计模式,常用于服务网格。

编码器

Encoder

神经网络中负责将输入转换为内部表示的部分。

编排

Orchestration

自动化配置、协调和管理计算机系统和软件。

边缘计算

Edge Computing

在靠近数据源的网络边缘进行计算的模式,降低延迟。

BM25

一种经典的排序函数,用于评估文档与查询的相关性。

播客

Podcast

一种数字音频文件系列。

C

18

残差连接

Residual Connection

跳跃某些层的连接方式,帮助梯度在深层网络中更好地传播。

CANN

华为昇腾的异构计算架构,提供神经网络计算引擎和算子库。

参数高效微调

Parameter-Efficient Fine-tuning

只微调模型少量参数的方法,大幅降低训练成本和存储需求。

差分隐私

Differential Privacy

通过添加噪声保护个体隐私的统计方法。

超卖

Oversubscription

分配的资源总量超过物理可用资源的情况,通常在内存或 CPU 分配中使用。

超配

Overprovisioning

预先分配超过实际需求的资源量以满足突发需求或确保高可用性。

查询理解

Query Understanding

分析查询意图和语义的步骤,提升检索准确性。

持续部署

Continuous Deployment

自动将通过测试的代码变更部署到生产环境的实践。

持续交付

Continuous Delivery

保持代码随时可以部署到生产状态的开发实践。

持续集成

Continuous Integration

频繁地将代码变更集成到主分支的开发实践。

持续集成/持续部署

CI/CD

一种通过在应用开发阶段引入自动化来频繁向客户交付应用的方法。

垂直 Pod 自动扩缩容

Vertical Pod Autoscaler

自动调整 Pod 资源请求的机制,优化资源利用率。

初始化容器

Init Container

在主容器启动前运行的辅助容器,用于初始化配置或依赖。

词性标注

Part-of-Speech Tagging

为文本中每个词标注词性的任务。

CLIP

Contrastive Language-Image Pre-training,连接文本和图像的模型。

ColBERT

一种基于令牌级别的向量检索方法,保留细粒度匹配信息。

CUDA

NVIDIA 的并行计算平台和编程模型,允许开发者使用 GPU 进行通用计算。

存活探针

Liveness Probe

检测容器是否存活的健康检查,不通过时重启容器。

D

16

大模型

Large Language Model

参数规模巨大的深度学习模型,通常指具有数十亿到数万亿参数的语言模型。

大语言模型

LLM

一种能够理解和生成人类语言的深度学习算法。

DevOps

一组结合了软件开发(Dev)和 IT 运营(Ops)的实践。

丢弃法

Dropout

训练时随机丢弃部分神经元的正则化技术,防止过拟合。

低秩分解

Low-Rank Factorization

将权重矩阵分解为两个小矩阵乘积的压缩技术。

低秩自适应

LoRA

Low-Rank Adaptation,一种高效的大模型微调技术。

动态图

Dynamic Graph

结构随时间变化的图。

Dynamic Resource Allocation

DRA

动态资源分配的管理。

断路器

Circuit Breaker

一种设计模式,用于检测故障并防止故障扩散。

多进程服务

MPS

Multi-Process Service,一种用于在多个进程之间共享 GPU 资源的技术。

多集群

Multi-Cluster

涉及多个集群的部署架构。

多模态

Multimodal

处理多种数据类型(文本、图像、音频等)的模型或系统。

多实例 GPU

MIG

Multi-Instance GPU,一种将单个 GPU 分割成多个实例的技术。

多头注意力

Multi-Head Attention

并行执行多个注意力操作的机制,捕捉不同的特征表示。

多网格

Multi-Mesh

涉及多个服务网格的架构。

多向量检索

Multi-vector Retrieval

为文档的不同部分(如标题、正文)分别生成向量并检索。

E

2

eBPF

Extended Berkeley Packet Filter,一种允许在 Linux 内核中运行沙箱程序的技术。

etcd

一个分布式、可靠的键值存储,用于存储分布式系统的最关键数据。

F

15

反向传播

Backpropagation

一种用于训练神经网络的算法。

非一致性存储访问

NUMA

Non-Uniform Memory Access,一种计算机体系结构,其中内存访问速度取决于内存位置。

分布式追踪

Distributed Tracing

跟踪请求在微服务间传播路径的技术,用于性能分析和故障排查。

氛围编程

Vibe Coding

一种强调编程环境和心理状态的编程方式。

分页注意力

PagedAttention

PagedAttention,一种通过分页机制来提高注意力机制效率的技术。

副本集

ReplicaSet

维护一组 Pod 副本运行的 Kubernetes 控制器,确保指定数量的 Pod 副本始终运行。

服务等级目标

SLO

Service Level Objective,定义服务性能的具体目标。

服务等级协议

SLA

Service Level Agreement,服务提供商与客户之间的正式协议。

服务等级协议

Service Level Agreement

服务提供商与客户之间的正式协议,定义服务质量和责任。

服务发现

Service Discovery

自动检测和定位网络中可用的服务实例的机制。

服务身份

Service Identity

标识微服务身份的机制,用于服务间的认证和授权。

服务网格

Service Mesh

用于处理服务间通信的基础设施层。

服务质量

Qos

Quality of Service,一种用于描述系统性能和可靠性的指标。

负载均衡

Load Balancing

在多个计算资源之间分配工作负载。

负载均衡器

Load Balancer

用于分配网络流量的设备或软件。

G

11

高带宽内存

High Bandwidth Memory

用于 GPU 的高速内存,提供比传统 GDDR 更高的带宽。

高带宽显存

HBM

High Bandwidth Memory,用于 GPU 的高速内存,提供比传统 GDDR 更高的带宽。

GitOps

一种使用 Git 仓库作为基础设施即代码的单一事实来源的操作模型。

工具调用

Tool Calling

Agent 执行外部操作的能力,扩展 AI 的功能边界。

GPUDirect

NVIDIA 的技术,允许 GPU 直接访问网络或存储设备数据,绕过 CPU 和主机内存。

GPUDirect RDMA

结合 GPUDirect 和 RDMA 技术,实现 GPU 间直接高速数据传输。

Grafana

开源可视化监控平台,支持多种数据源和丰富的面板类型。

固定大小分块

Fixed-size Chunking

按固定大小分割文档的分块策略,简单但可能破坏语义。

规范驱动开发

SDD

一种开发方法,其中规范驱动主要的开发流程。

滚动更新

Rolling Update

逐步替换旧版本 Pod 的更新策略,实现零停机部署。

过拟合

Overfitting

模型在训练集上表现好但泛化能力差的现象,通常由模型过于复杂或训练数据不足引起。

H

15

航点

Waypoint

Istio Ambient 模式下的代理组件,处理 L7 流量管理和策略执行。

函数调用

Function Calling

LLM 调用外部函数的机制,实现与外部系统的集成。

函数即服务

Function as a Service

无需管理服务器即可运行代码的云计算服务模式。

Helm

Kubernetes 的包管理器。

Helm Chart

Helm 包。

HNSW

Hierarchical Navigable Small World,一种高效的向量索引算法。

滑动窗口

Sliding Window

一种文档分块策略,保持相邻块之间的重叠。

幻觉

Hallucination

模型生成看似合理但实际上错误或荒谬的信息。

灰度发布

Canary Release

逐步将新版本发布给部分用户,以验证新版本的稳定性和性能。

护栏

Guardrails

限制 AI 模型输出范围的约束机制,确保输出符合预期和安全要求。

护栏机制

Guardrails

限制 AI 模型输出范围的约束机制,确保输出符合预期和安全要求。

混沌工程

Chaos Engineering

通过主动注入故障提升系统韧性的工程方法,帮助发现系统弱点。

混合搜索

Hybrid Search

结合关键词搜索和语义搜索的检索策略。

混合专家模型

MoE

Mixture of Experts,一种通过结合多个专家网络来提高模型容量和效率的架构。

混合专家模型

Mixture of Experts

通过激活部分专家网络来处理输入的模型架构,提高模型效率。

J

20

检查点

Checkpoint

保存模型训练状态的快照,用于训练中断后的恢复或模型部署。

健康检查

Health Check

定期检查应用或服务是否正常运行的方法。

检索增强生成

RAG

Retrieval-Augmented Generation.

检索增强生成

Retrieval-Augmented Generation

结合信息检索和生成模型的技术,提升生成内容的准确性和可靠性。

检索增强生成 (Retrieval-Augmented Generation)

RAG

结合了信息检索和生成模型的技术。

剪枝

Pruning

移除模型中不重要参数或神经元的技术。

键值缓存

KV Cache

Key-Value Cache,一种用于存储和检索键值对的数据结构。

基础设施即代码

Infrastructure as Code

使用代码来管理和配置基础设施的方法。

基础设施即服务

Infrastructure as a Service

提供虚拟化计算资源的云计算服务。

解码器

Decoder

神经网络中负责将内部表示转换为输出的部分。

金丝雀部署

Canary Deployment

逐步将流量导向新版本的部署策略,降低风险并快速发现问题。

金丝雀发布

Canary Deployment

逐步将流量导向新版本的部署策略,降低风险并快速发现问题。

机器翻译

Machine Translation

自动将文本从一种语言翻译成另一种语言的任务。

机器学习

Machine Learning

一种数据分析方法,能让计算机自动从经验中学习。

计算机视觉

CV

Computer Vision,使计算机能够从数字图像或视频中获得高层理解的领域。

就绪探针

Readiness Probe

检测容器是否准备好服务请求的健康检查,不通过时从 Service 中移除。

基于角色的访问控制

RBAC

Role-Based Access Control,基于角色的权限管理系统,通过角色定义用户权限。

基于人类反馈的强化学习

RLHF

Reinforcement Learning from Human Feedback,利用人类反馈来微调模型的方法。

卷积神经网络

CNN

Convolutional Neural Network,常用于分析视觉图像的深度神经网络。

JWT

JSON Web Token,一种用于安全传输信息的紧凑标准。

K

6

Kubernetes

K8s

Kubernetes 的通用缩写,源自 K 和 s 之间有 8 个字母。

开放容器计划

OCI

Open Container Initiative,制定容器格式和运行时标准的开放治理结构。

可观测性

Observability

通过系统外部输出理解系统内部状态的能力,包括日志、指标和链路追踪。

控制组

cgroup

Control Group,一种用于限制、记录和隔离进程组资源的机制。

kubectl

Kubernetes 的命令行工具,用于与集群通信。

扩散模型

Diffusion Model

通过逐步去噪生成数据的生成模型。

L

10

蓝绿部署

Blue-Green Deployment

通过两套环境实现零停机部署的策略,快速切换流量。

联邦学习

Federated Learning

在分布式设备上训练模型而不共享原始数据的隐私保护技术。

量化

Quantization

降低模型精度(如 FP32 转 INT8)以减少计算量和内存占用的技术。

链式调用

Chain Invocation

将多个操作或函数调用串联起来的编程模式。

连续批处理

Continuous Batching

动态合并请求以提高 GPU 利用率的批处理技术,也称为迭代级批处理。

LIME

Local Interpretable Model-agnostic Explanations,局部可解释模型解释方法。

零和博弈

Zero-sum Game

一方收益等于另一方损失的博弈场景。

零信任

Zero Trust

不默认信任任何用户或设备的网络安全模型,所有访问都需要验证。

零样本学习

Zero-shot Learning

不需要任何样本就能完成新任务的能力。

流处理器

SM

Streaming Multiprocessor,一种 GPU 的计算核心。

M

10

马尔可夫决策过程

Markov Decision Process

强化学习中的数学框架,描述智能体与环境交互。

每秒万亿次浮点运算

TFLOPS

Trillion Floating Point Operations Per Second,一种衡量计算能力的指标。

每秒万亿次运算

TOPS

Trillion Operations Per Second,衡量 AI 加速器性能的指标,表示每秒可执行的整数运算次数。

命名空间

Namespace

Kubernetes 中用于隔离资源的虚拟集群,实现多租户和资源配额管理。

命名实体识别

Named Entity Recognition

从文本中识别和分类命名实体的任务。

模型剪枝

Model Pruning

移除神经网络中不重要连接或神经元的技术,减小模型大小和计算量。

模型上下文协议

MCP

Model Context Protocol.

模型压缩

Model Compression

减小模型大小和计算开销的技术集合。

目标规则

DestinationRule

Istio 中定义流量去向后服务的配置,实现负载均衡、连接池和熔断等策略。

MUSA

摩尔线程的统一系统架构,支持其 GPU 的通用计算。

N

4

纳什均衡

Nash Equilibrium

博弈论中所有玩家都不愿单独改变策略的状态。

内容分发网络

CDN

分布在不同地理位置的服务器网络。

Neuware

寒武纪的 AI 软件栈,包括开发工具、运行时和驱动。

NVLink

NVLink,一种用于连接 GPU 的高速串行通信接口。

O

6

OAuth

一种开放标准的授权协议。

Okapi BM25

BM25 算法的原始实现,广泛用于信息检索系统。

Once-for-All

一种训练一次即可适应多种部署场景的神经网络架构搜索方法。

Out of Memory

OOM

Out of Memory,一种内存不足的错误。

OpenTelemetry

可观测性数据收集的开放标准,统一 traces、metrics 和 logs 的采集。

Orca

Orca,一种用于大规模分布式训练的优化器。

P

8

PCIe

PCI Express,一种高速串行计算机扩展总线标准。

配置管理

Configuration Management

管理系统配置的过程,包括创建、更新和维护配置文件。

配置映射

ConfigMap

用于存储非敏感配置数据的 Kubernetes 资源,将配置与容器镜像分离。

批次大小

Batch Size

一次训练迭代使用的样本数量,影响训练速度和模型效果。

平台即服务

Platform as a Service

提供应用程序开发和部署环境的云计算服务。

Pod 中断预算

Pod Disruption Budget

控制 Pod 同时中断数量的机制,保证应用在维护期间的最小可用性。

Prometheus

开源监控告警系统,采用拉取模型采集时序数据。

PromptOps

Prompt Operations.

Q

9

强化学习

RL

Reinforcement Learning,通过试错来训练代理以最大化奖励的机器学习方法。

强化学习

Reinforcement Learning

通过试错来训练代理以最大化奖励的机器学习方法。

欠拟合

Underfitting

模型未能充分学习训练数据特征的现象,通常由模型过于简单或训练时间不足引起。

嵌入

Embedding

将离散数据(如词语)映射到连续向量空间的表示方法。

嵌入模型

Embedding Model

用于生成文本嵌入的模型。

情感分析

Sentiment Analysis

识别文本情感倾向的任务,如正面、负面、中性。

权重共享

Weight Sharing

在模型不同部分共享相同参数的技术,减少参数量。

权重衰减

Weight Decay

在损失函数中添加权重范数的正则化技术,防止过拟合。

区块链

Blockchain

一种去中心化的分布式账本技术。

R

16

ReAct

Reasoning + Acting,结合推理和行动的智能体框架。

Recursive Character Splitting

一种文档分块方法,按段落、句子、词的层级递归分割。

Reflexion

一种让智能体从失败中学习的自我反思机制。

认证

Authentication

验证用户身份的过程。

ROCm

AMD 的开放 GPU 计算平台,提供类似 CUDA 的开发体验,支持 AMD GPU。

容错

Fault Tolerance

系统在部分组件发生故障时仍能继续运行的能力。

容器

Container

一种软件包,包含运行软件所需的所有内容。

容器编排

Container Orchestration

自动化管理容器部署、扩展和连接的技术。

容器存储接口

CSI

Container Storage Interface,用于将存储系统暴露给容器化工作负载的标准接口。

容器化

Containerization

将应用程序及其依赖打包到容器中的技术。

容器网络接口

CNI

Container Network Interface,配置容器网络接口的规范和库。

容器运行时接口

CRI

Container Runtime Interface,Kubernetes 定义的容器运行时插件接口。

RotatE

一种将关系建模为复数旋转的知识图谱嵌入方法。

RSS

简易信息聚合。

软件即服务

Software as a Service

通过互联网提供软件应用的云计算服务模式。

入口

Ingress

Kubernetes 中管理外部访问的 API 对象,提供 HTTP 和 HTTPS 路由规则。

S

31

上下文

Context

模型生成响应时所依赖的信息背景。

上下文窗口

Context Window

模型能处理的最大 token 数量,决定了模型的上下文理解能力。

上下文工程

Context Engineering

优化上下文窗口使用以提高模型性能。

少样本学习

Few-shot Learning

只用少量样本就能学会新任务的能力。

SHAP

SHapley Additive exPlanations,一种模型解释方法。

设备插件

Device Plugin

Kubernetes 中用于硬件设备资源扩展的插件机制,支持 GPU、FPGA 等专用硬件。

深度学习

Deep Learning

一种基于人工神经网络的机器学习方法。

生成对抗网络

GAN

Generative Adversarial Network,由两个神经网络(生成器和判别器)相互博弈的深度学习架构。

神经网络

Neural Network

受到生物神经网络启发的计算模型。

神经网络架构搜索

Neural Architecture Search

自动搜索最优神经网络架构的技术。

时间片

Time Slice

CPU 调度的基本单位,每个进程轮流使用 CPU 的时间段。

时间片分割

Time-slicing

通过时间片轮转实现 GPU 共享的技术,不同进程在不同时间片使用 GPU。

视觉 Transformer

Vision Transformer

将 Transformer 架构应用于计算机视觉任务的模型。

实体识别

Entity Recognition

从文本中识别命名实体的任务,如人名、地名等。

时序图

Temporal Graph

节点和边随时间变化的图结构。

守护进程

Daemon

在后台运行并执行系统级任务的进程,通常在系统启动时自动启动。

守护进程集

DaemonSet

确保在每个节点上运行一个 Pod 副本的 Kubernetes 资源,常用于系统级守护进程。

授权

Authorization

确定用户是否有权执行特定操作的过程。

首 token 延迟

TTFT

Time To First Token,衡量推理响应速度的指标,表示从收到请求到生成第一个 token 的时间。

双向传输层安全

mTLS

服务间双向认证的加密通信,确保服务身份验证和数据传输安全。

双向认证

Mutual Authentication

通信双方互相验证身份的安全机制,增强安全性。

输出 token 间隔

TPOT

Time Per Output Token,生成阶段每个 token 的时间间隔,衡量生成速度的指标。

水平 Pod 自动扩缩容

Horizontal Pod Autoscaler

根据负载自动调整 Pod 数量的机制,实现应用的弹性伸缩。

Sidecar 模式

Sidecar

将辅助功能与主应用容器部署在同一 Pod 中的设计模式。

思维链

CoT

Chain of Thought,通过生成一系列中间推理步骤来提高大模型复杂推理能力的提示技术。

思维链

Chain of Thought

通过生成一系列中间推理步骤来提高大模型复杂推理能力的提示技术。

思维树

Tree of Thoughts

将思维链扩展为树形结构的推理方法,探索多种可能的推理路径。

SPIFFE/SPIRE

为动态环境提供身份的标准,SPIRE 是 SPIFFE 的实现。

SSL/TLS

用于在计算机网络上提供通信安全的加密协议。

Stable Diffusion

一种基于扩散模型的文本到图像生成模型。

速率限制

Rate Limiting

限制网络请求频率的技术。

T

18

弹性伸缩

Elastic Scaling

根据负载自动调整资源的能力,包括水平和垂直伸缩。

特征重要性

Feature Importance

评估每个特征对模型预测贡献度的指标。

TF-IDF

Term Frequency-Inverse Document Frequency,衡量词语在文档中重要性的指标。

梯度

Gradient

优化算法中指导参数更新的方向,表示函数变化最快的方向。

梯度下降

Gradient Descent

一种用于优化神经网络的一阶迭代优化算法。

提示词

Prompt

输入给 AI 模型的指令或文本。

提示词工程

Prompt Engineering

设计和优化输入提示词以获得最佳输出的技术。

Token

大模型处理文本的基本单位,可以是单词、词子或字符。

同态加密

Homomorphic Encryption

允许在加密数据上直接计算的加密方式。

统一计算设备架构

Compute Unified Device Architecture

NVIDIA 的并行计算平台和编程模型,允许开发者使用 GPU 进行通用计算。

通用人工智能

AGI

Artificial General Intelligence,具备与人类同等或超越人类的广泛认知能力的 AI。

TransE

一种简单的知识图谱嵌入方法,将关系视为平移向量。

Transformer

一种基于注意力机制的深度学习模型。

Text-to-Speech

TTS

将文本转换为语音的技术。

推理

Inference

使用训练好的模型进行预测的过程。

推理引擎

Inference Engine

专门用于模型推理的软件或硬件加速器,优化推理性能。

图像到文本

Image-to-Text

根据图像生成文本描述的任务。

图增强检索

Graph RAG

结合知识图谱的 RAG 技术,提供更结构化的上下文信息。

W

19

WebAssembly

WASM

可在浏览器中运行的二进制指令格式,提供接近原生的性能。

Webhook

一种允许应用向其他应用提供实时信息的机制。

微服务

Microservices

一种架构风格,将应用程序构建为一组小型服务。

微调

Fine-tuning

在预训练模型基础上进行额外训练,使模型适应特定任务或领域。

位置编码

Positional Encoding

为序列中每个位置添加位置信息的技术,使模型理解顺序关系。

文本到图像

Text-to-Image

根据文本描述生成图像的任务。

文本到文本

Text-to-Text

输入和输出都是文本的模型任务类型。

文本分类

Text Classification

将文本分配到预定义类别的任务。

文本生成

Text Generation

自动生成文本内容的任务。

文本摘要

Text Summarization

从长文本中生成简短摘要的任务。

问答

Question Answering

根据给定上下文回答问题的任务。

稳健

Robust

能够承受或克服不利条件。

稳健性

Robustness

系统维持其功能的能力。

无边车网格

Sidecar-less Mesh

不需要在每个应用旁边部署代理的服务网格架构,如 Istio Ambient 模式。

无服务器

Serverless

一种云计算执行模型,云提供商动态分配机器资源。

无侵入网格

Ambient Mesh

Istio 的无 Sidecar 服务网格模式,通过节点级代理实现流量管理,简化应用部署。

无限带宽

InfiniBand

高性能计算机网络通信标准,提供高带宽、低延迟的互联解决方案。

无限带宽网络

InfiniBand

高性能计算机网络通信标准,提供高带宽、低延迟的互联解决方案。

无状态应用

Stateless Application

不保存任何会话状态的应用程序,可以随时扩展或缩减实例数量。

X

13

x509 证书

x509 Certificate

用于服务身份认证的数字证书标准,定义公钥证书的格式和分发方式。

向量化

Vectorization

将数据转换为向量表示的过程,用于机器学习和信息检索。

向量数据库

Vector Database

专门用于存储和查询向量数据的数据库。

显著性图

Saliency Map

显示输入图像各部分对模型输出重要性的热力图。

小芯片

Chiplet

将大芯片分解为多个小芯片的设计方法,通过先进封装技术实现芯片间高速互联。

XPU

百度的 AI 芯片架构,专为深度学习训练和推理设计。

学习率

Learning Rate

控制模型参数更新步长的超参数,影响训练收敛速度和最终效果。

循环神经网络

RNN

Recurrent Neural Network,一种专门处理序列数据的神经网络。

虚拟服务

VirtualService

Istio 中定义流量路由规则的资源,实现请求路由、故障注入和超时重试等流量管理功能。

虚拟 GPU

vGPU

GPU 虚拟化技术,将物理 GPU 分割成多个虚拟 GPU 供多个虚拟机或容器使用。

虚拟化

Virtualization

创建虚拟版本的计算机系统资源的技术。

训练

Training

使用数据集调整模型参数的过程,使模型能够学习数据中的模式。

训练轮次

Epoch

完整遍历训练数据集一次,是模型训练的基本单位。

Y

16

延迟交互

Late Interaction

在查询和文档的所有向量嵌入之间进行交互的检索方法。

遥测

Telemetry

远程收集和传输数据的技术,用于系统监控和分析。

依存句法分析

Dependency Parsing

分析句子中词语之间依存关系的任务。

意图检测

Intent Detection

识别用户查询意图的分类任务。

有效吞吐

Goodput

满足 SLO 前提下的实际可用吞吐,更能反映系统真实性能的指标。

有状态集

StatefulSet

Kubernetes 中用于管理有状态应用的工作负载资源,为 Pod 提供稳定的标识和持久化存储。

有状态应用

Stateful Application

需要保持状态数据的应用程序,如数据库,每个实例都有唯一的标识和持久化存储。

远程直接内存访问

RDMA

Remote Direct Memory Access,绕过操作系统内核的直接内存访问技术,降低网络延迟。

远程直接内存访问

Remote Direct Memory Access

绕过操作系统内核的直接内存访问技术,降低网络延迟。

元数据过滤

Metadata Filtering

在向量检索中通过元数据过滤结果的技术。

运算器

Operator

用于封装和管理 Kubernetes 应用运维知识的控制器,实现应用的自动化部署和运维。

云原生

Cloud Native

充分利用云计算优势的应用程序开发和部署方法。

云原生计算基金会

CNCF

Cloud Native Computing Foundation,致力于推广云原生技术的非营利组织。

预训练

Pre-training

在大规模数据集上训练模型的基础阶段,学习通用知识。

语义分块

Semantic Chunking

根据语义边界分割文档的分块策略,保持语义完整性。

语义搜索

Semantic Search

基于语义理解而非关键词匹配的搜索方法。

Z

29

暂停容器

Pause Container

Pod 中负责共享网络命名空间的容器,也称 sandbox 容器。

张量

Tensor

多维数组,AI 计算的基本数据结构,用于表示神经网络中的数据和参数。

张量处理单元

TPU

Tensor Processing Unit,一种由 Google 开发的专用硬件加速器,用于机器学习。

蒸馏

Distillation

将大模型知识迁移到小模型的技术,保持性能的同时降低部署成本。

证书颁发机构

Certificate Authority

颁发和管理数字证书的机构,负责验证身份和签发证书。

指标

Metrics

数值化的可测量数据点,用于监控和告警。

指代消解

Coreference Resolution

识别文本中指代关系的任务,如将'他'指向具体的人。

智能合约

Smart Contract

存储在区块链上的自动执行的合约。

智能体

AI Agent

一个能够感知环境并采取行动以实现目标的智能体。

智能体

Agent

执行动作的实体。

智能体 AI

Agentic AI

具有代理能力的 AI。

智能体调用大模型

A2L

Agent-to-LLM,Agent 与语言模型的交互。

智能体调用工具

A2T

Agent-to-Tool,Agent 调用外部工具的能力。

智能体间通信

A2A

Agent-to-Agent,Agent 之间的协作与通信模式。

智能体网络

Agentic web

由智能体交互构成的网络。

智能体运行时

Agentic Runtime

支持智能体运行的执行环境。

知识图谱

Knowledge Graph

用图结构表示实体及其关系的知识表示方法。

知识图谱嵌入

Knowledge Graph Embedding

将知识图谱中的实体和关系映射到向量空间的技术。

知识蒸馏

Knowledge Distillation

将大模型知识迁移到小模型的技术。

重排序

Reranking

对初次检索结果进行二次排序以提升相关性的技术。

注意力机制

Attention Mechanism

让模型关注输入数据重要部分的机制,提升模型性能。

注意力可视化

Attention Visualization

可视化模型注意力分布以理解模型关注点的技术。

自定义资源定义

CRD

Custom Resource Definition,允许用户扩展 Kubernetes API 的机制。

自然语言处理

NLP

Natural Language Processing,人工智能的一个分支,致力于使计算机能够理解人类语言。

资源配额

Resource Quota

限制命名空间资源使用量的策略,包括 CPU、内存、存储等资源的配额。

资源限制

Resource Limit

资源限制的管理。

自注意力

Self-Attention

Transformer 中的核心机制,计算序列内部元素之间的关系。

ztunnel

Istio Ambient 模式的隧道代理,负责 L4 流量转发和 mTLS 加密。

最大边际相关性

Maximal Marginal Relevance

一种重排序策略,平衡相关性和多样性。

总结

本页术语均可用于文章写作、翻译对照与站内统一表述。