术语表

目录

术语表#

本节定义了 KernelGenBench 文档中使用的技术术语。

Agent: Agent（智能体）：一种能够根据反馈自主生成、执行和迭代代码的编程智能体。在 KernelGenBench 中，Claude Code 和 OpenCode 等智能体可以通过执行驱动的强化学习来调试和优化内核。

ATen: ATen：PyTorch 的原生张量库，为深度学习提供基础运算。KernelGenBench 包含 110 个从真实模型训练轨迹中提取的 ATen 算子。

CUDA: CUDA：NVIDIA 的专有并行计算平台和 GPU 加速编程模型。CUDA 与 NVIDIA 硬件架构深度绑定。

cuBLAS: cuBLAS：NVIDIA 的闭源基础线性代数子程序库，针对 NVIDIA GPU 进行了高度优化。KernelGenBench 包含 50 个 cuBLAS 算子，代表了极端的性能挑战。

GEMM: GEMM：通用矩阵乘法，一种基础的线性代数运算。cuBLAS 包含众多不同精度和批处理模式的 GEMM 变体。

Kernel: Kernel（内核）：在 GPU 上执行的函数，用 CUDA 或 Triton 编写。内核直接决定计算性能，必须针对特定硬件进行优化。

KernelGenBench: KernelGenBench：一个全面的基准框架，用于评估跨多个硬件平台的 LLM 和基于智能体的 Triton 内核生成。FlagOS 生态系统的一部分。

KernelGenBench-aten: KernelGenBench-aten：包含 110 个 PyTorch ATen 算子的数据集子集，用于所有支持硬件的跨平台评估。

KernelGenBench-cublas: KernelGenBench-cublas：包含 50 个 cuBLAS 算子的数据集子集，由于库依赖关系，仅在 NVIDIA 平台上可用。

KernelGenBench-nocublas: A dataset subset containing 160 operators (ATen + vLLM), used for NVIDIA evaluation without cuBLAS dependency.

KernelGenBench-MS: KernelGenBench-MS：多源子基准，在 NVIDIA 硬件上评估来自三个来源（ATen、vLLM、cuBLAS）的 210 个算子。

KernelGenBench-MC: KernelGenBench-MC：多芯片子基准，在六个硬件平台上评估 110 个 ATen 算子，以衡量性能可移植性。

KernelGenBench-vllm: KernelGenBench-vllm：包含 50 个 vLLM 算子的数据集子集，仅在 NVIDIA 平台上可用。

LLM: LLM（大语言模型）：一种在海量文本数据上训练的 AI 模型。在 KernelGenBench 中，LLM 的 GPU 内核生成能力受到评估。

Operator: Operator（算子）：深度学习框架中的可复用计算单元。算子定义"计算什么"（如 torch.add），而内核定义"如何在硬件上执行"。

Pass@K: Pass@K：一种评估指标，衡量 K 个生成样本中是否至少存在一个正确解。Pass@1 测试单次生成能力；Pass@5 允许多次尝试。

PagedAttention: PagedAttention：vLLM 中用于 LLM 推理的高效内存注意力机制。KernelGenBench 中 vLLM 算子子集的一部分。

Speedup: Speedup（加速比）：生成内核相对于基准实现的性能提升比率。通过测试用例和算子的几何平均值计算。

Triton: Triton：一种用于 GPU 内核的开源编程语言，在保持高性能的同时抽象底层细节。Triton 代码可在不同 GPU 架构间移植。

vLLM: vLLM：一个带有自定义 CUDA 内核的高吞吐量 LLM 推理引擎。KernelGenBench 包含 50 个代表生产推理工作负载的 vLLM 算子。

缩写#

缩写	全称
AST	抽象语法树
ATen	张量库
BLAS	基础线性代数子程序
CUDA	统一计算设备架构
DCU	数据中心加速器
GEMM	通用矩阵乘法
GPU	图形处理器
LLM	大语言模型
MUSA	摩尔线程统一系统架构
NPU	神经网络处理器

硬件平台#

平台	厂商	描述
NVIDIA	NVIDIA	A100 GPU，主要评估基准
昇腾	华为	神经网络处理器
MUSA	摩尔线程	GPU 架构
海光	海光	数据中心加速器
天数智芯	天数智芯	AI 加速器
摩尔线程	沐曦	GPU 加速器