多芯片支持#
KernelGenBench 支持六种硬件平台,具有自动设备检测和统一的执行流水线。
支持的平台#
平台 |
描述 |
备注 |
|---|---|---|
NVIDIA |
A100 GPU |
主要基准 |
昇腾 NPU |
华为 AI 加速器 |
— |
MUSA |
摩尔线程 GPU |
— |
海光 DCU |
海光数据中心加速器 |
— |
天数智芯 |
天数智芯 AI 芯片 |
— |
沐曦 |
沐曦加速器 |
— |
自动检测#
设备类型在运行时自动检测:
# Check detected device
python -c "from runtime import get_device_type; print(get_device_type())"
统一命令#
所有平台使用相同的命令——框架自动处理设备差异:
# Same command works on all platforms
python scripts/generate_kernel_and_verify.py \
--server-type openai \
--model-name gpt-4o
平台特定行为#
数据集选择#
平台 |
默认数据集 |
|---|---|
NVIDIA |
KernelGenBench(210 个算子) |
其他 |
KernelGenBench-aten(110 个算子) |
防作弊层#
层级 |
NVIDIA |
非 NVIDIA |
|---|---|---|
L1:AST 静态扫描 |
✓ |
✓ |
L2:幽灵回放 |
✓ |
✓ |
L3:硬件分析 |
✓ |
✗ |
L3 分析仅支持 NVIDIA,受限于工具可用性。
容差设置#
数值容差根据平台自动调整,以适应不同的浮点实现。
跨平台挑战#
编译器成熟度#
非 NVIDIA 平台存在:
Triton 编译器不够成熟
后端支持不完整
不同的内存模型
性能影响#
非 NVIDIA 平台需要约 2 倍的 Token 和时间
跨平台性能下降可能很严重
需要针对平台优化
硬件特定模板#
框架注入平台特定的代码模板:
导入语句
运行时配置
内存约束
设备特定常量