命令#

LLM 赛道评估的 CLI 命令。

基本用法#

单个算子测试#

python scripts/generate_kernel_and_verify.py \
    --op-name aten::add \
    --single-test \
    --server-type openai \
    --model-name gpt-4o \
    --max-rounds 3

完整基准测试#

python scripts/generate_kernel_and_verify.py \
    --server-type openai \
    --model-name gpt-4o \
    --max-rounds 10

数据集选择#

完整数据集(NVIDIA)#

python scripts/generate_kernel_and_verify.py \
    --dataset KernelGenBench \
    --server-type openai \
    --model-name gpt-4o

仅 ATen(所有平台)#

python scripts/generate_kernel_and_verify.py \
    --dataset KernelGenBench-aten \
    --server-type openai \
    --model-name gpt-4o

特定算子来源#

# vLLM operators only
python scripts/generate_kernel_and_verify.py \
    --dataset KernelGenBench-vllm \
    --server-type openai

# cuBLAS operators only
python scripts/generate_kernel_and_verify.py \
    --dataset KernelGenBench-cublas \
    --server-type openai

服务器类型#

OpenAI#

python scripts/generate_kernel_and_verify.py \
    --server-type openai \
    --model-name gpt-4o

Anthropic#

python scripts/generate_kernel_and_verify.py \
    --server-type anthropic \
    --model-name claude-opus-4-6

高级选项#

启用反思#

启用来自前几轮的反馈:

python scripts/generate_kernel_and_verify.py \
    --server-type openai \
    --model-name gpt-4o \
    --reflection

从检查点恢复#

python scripts/generate_kernel_and_verify.py \
    --resume-from output/pass_at_k/previous_run/

调试模式#

仅使用 8 个算子进行测试:

python scripts/generate_kernel_and_verify.py \
    --debug \
    --server-type openai