多芯片支持#

KernelGenBench 支持六种硬件平台,具有自动设备检测和统一的执行流水线。

支持的平台#

平台

描述

备注

NVIDIA

A100 GPU

主要基准

昇腾 NPU

华为 AI 加速器

MUSA

摩尔线程 GPU

海光 DCU

海光数据中心加速器

天数智芯

天数智芯 AI 芯片

沐曦

沐曦加速器

自动检测#

设备类型在运行时自动检测:

# Check detected device
python -c "from runtime import get_device_type; print(get_device_type())"

统一命令#

所有平台使用相同的命令——框架自动处理设备差异:

# Same command works on all platforms
python scripts/generate_kernel_and_verify.py \
    --server-type openai \
    --model-name gpt-4o

平台特定行为#

数据集选择#

平台

默认数据集

NVIDIA

KernelGenBench(210 个算子)

其他

KernelGenBench-aten(110 个算子)

在非 NVIDIA 平台上,vLLMcuBLAS 算子不可用。

防作弊层#

层级

NVIDIA

非 NVIDIA

L1:AST 静态扫描

L2:幽灵回放

L3:硬件分析

L3 分析仅支持 NVIDIA,受限于工具可用性。

容差设置#

数值容差根据平台自动调整,以适应不同的浮点实现。

跨平台挑战#

编译器成熟度#

非 NVIDIA 平台存在:

  • Triton 编译器不够成熟

  • 后端支持不完整

  • 不同的内存模型

性能影响#

  • 非 NVIDIA 平台需要约 2 倍的 Token 和时间

  • 跨平台性能下降可能很严重

  • 需要针对平台优化

硬件特定模板#

框架注入平台特定的代码模板:

  • 导入语句

  • 运行时配置

  • 内存约束

  • 设备特定常量