术语表#
本节定义了 KernelGenBench 文档中使用的技术术语。
- Agent
Agent(智能体):一种能够根据反馈自主生成、执行和迭代代码的编程智能体。在 KernelGenBench 中,Claude Code 和 OpenCode 等智能体可以通过执行驱动的强化学习来调试和优化内核。
- ATen
ATen:PyTorch 的原生张量库,为深度学习提供基础运算。KernelGenBench 包含 110 个从真实模型训练轨迹中提取的 ATen 算子。
- CUDA
CUDA:NVIDIA 的专有并行计算平台和 GPU 加速编程模型。CUDA 与 NVIDIA 硬件架构深度绑定。
- cuBLAS
cuBLAS:NVIDIA 的闭源基础线性代数子程序库,针对 NVIDIA GPU 进行了高度优化。KernelGenBench 包含 50 个 cuBLAS 算子,代表了极端的性能挑战。
- GEMM
GEMM:通用矩阵乘法,一种基础的线性代数运算。cuBLAS 包含众多不同精度和批处理模式的 GEMM 变体。
- Kernel
Kernel(内核):在 GPU 上执行的函数,用 CUDA 或 Triton 编写。内核直接决定计算性能,必须针对特定硬件进行优化。
- KernelGenBench
KernelGenBench:一个全面的基准框架,用于评估跨多个硬件平台的 LLM 和基于智能体的 Triton 内核生成。FlagOS 生态系统的一部分。
- KernelGenBench-aten
KernelGenBench-aten:包含 110 个 PyTorch ATen 算子的数据集子集,用于所有支持硬件的跨平台评估。
- KernelGenBench-cublas
KernelGenBench-cublas:包含 50 个 cuBLAS 算子的数据集子集,由于库依赖关系,仅在 NVIDIA 平台上可用。
- KernelGenBench-nocublas
A dataset subset containing 160 operators (ATen + vLLM), used for NVIDIA evaluation without cuBLAS dependency.
- KernelGenBench-MS
KernelGenBench-MS:多源子基准,在 NVIDIA 硬件上评估来自三个来源(ATen、vLLM、cuBLAS)的 210 个算子。
- KernelGenBench-MC
KernelGenBench-MC:多芯片子基准,在六个硬件平台上评估 110 个 ATen 算子,以衡量性能可移植性。
- KernelGenBench-vllm
KernelGenBench-vllm:包含 50 个 vLLM 算子的数据集子集,仅在 NVIDIA 平台上可用。
- LLM
LLM(大语言模型):一种在海量文本数据上训练的 AI 模型。在 KernelGenBench 中,LLM 的 GPU 内核生成能力受到评估。
- Operator
Operator(算子):深度学习框架中的可复用计算单元。算子定义"计算什么"(如
torch.add),而内核定义"如何在硬件上执行"。
- Pass@K
Pass@K:一种评估指标,衡量 K 个生成样本中是否至少存在一个正确解。Pass@1 测试单次生成能力;Pass@5 允许多次尝试。
- PagedAttention
PagedAttention:vLLM 中用于 LLM 推理的高效内存注意力机制。KernelGenBench 中 vLLM 算子子集的一部分。
- Speedup
Speedup(加速比):生成内核相对于基准实现的性能提升比率。通过测试用例和算子的几何平均值计算。
- Triton
Triton:一种用于 GPU 内核的开源编程语言,在保持高性能的同时抽象底层细节。Triton 代码可在不同 GPU 架构间移植。
- vLLM
vLLM:一个带有自定义 CUDA 内核的高吞吐量 LLM 推理引擎。KernelGenBench 包含 50 个代表生产推理工作负载的 vLLM 算子。
缩写#
缩写 |
全称 |
|---|---|
AST |
抽象语法树 |
ATen |
张量库 |
BLAS |
基础线性代数子程序 |
CUDA |
统一计算设备架构 |
DCU |
数据中心加速器 |
GEMM |
通用矩阵乘法 |
GPU |
图形处理器 |
LLM |
大语言模型 |
MUSA |
摩尔线程统一系统架构 |
NPU |
神经网络处理器 |
硬件平台#
平台 |
厂商 |
描述 |
|---|---|---|
NVIDIA |
NVIDIA |
A100 GPU,主要评估基准 |
昇腾 |
华为 |
神经网络处理器 |
MUSA |
摩尔线程 |
GPU 架构 |
海光 |
海光 |
数据中心加速器 |
天数智芯 |
天数智芯 |
AI 加速器 |
摩尔线程 |
沐曦 |
GPU 加速器 |