示例#

常见的 LLM 赛道使用场景。

快速验证#

测试一切是否正常工作:

python scripts/generate_kernel_and_verify.py \
    --op-name aten::add \
    --single-test \
    --server-type openai \
    --model-name gpt-4o \
    --max-rounds 1

Pass@1 评估#

评估单次生成:

python scripts/generate_kernel_and_verify.py \
    --server-type openai \
    --model-name gpt-4o \
    --max-rounds 1 \
    --temperature 0

Pass@5 评估#

评估 5 选 1 生成:

python scripts/generate_kernel_and_verify.py \
    --server-type openai \
    --model-name gpt-4o \
    --max-rounds 5 \
    --temperature 0.8

跨平台测试#

在非 NVIDIA 硬件上:

# Dataset automatically set to KernelGenBench-aten
python scripts/generate_kernel_and_verify.py \
    --server-type openai \
    --model-name gpt-4o

特定算子族#

测试所有 GEMM 变体:

python scripts/generate_kernel_and_verify.py \
    --dataset KernelGenBench-cublas \
    --server-type openai \
    --model-name gpt-4o

调试与迭代#

从调试模式开始:

# Test 8 operators
python scripts/generate_kernel_and_verify.py \
    --debug \
    --server-type openai

# If successful, run full benchmark
python scripts/generate_kernel_and_verify.py \
    --server-type openai

分析结果#

python scripts/analyze/analyze.py output/pass_at_k/<run_dir>/

预期结果#

基于 KernelGenBench 实验(NVIDIA A100):

方法

准确率(210 个算子)

Pass@1 (Opus-4.6)

41%

Pass@5 (Opus-4.6)

57%

Pass@1 (GPT-4o)

~35%

Pass@5 (GPT-4o)

~50%