命令#
LLM 赛道评估的 CLI 命令。
基本用法#
单个算子测试#
python scripts/generate_kernel_and_verify.py \
--op-name aten::add \
--single-test \
--server-type openai \
--model-name gpt-4o \
--max-rounds 3
完整基准测试#
python scripts/generate_kernel_and_verify.py \
--server-type openai \
--model-name gpt-4o \
--max-rounds 10
数据集选择#
完整数据集(NVIDIA)#
python scripts/generate_kernel_and_verify.py \
--dataset KernelGenBench \
--server-type openai \
--model-name gpt-4o
仅 ATen(所有平台)#
python scripts/generate_kernel_and_verify.py \
--dataset KernelGenBench-aten \
--server-type openai \
--model-name gpt-4o
特定算子来源#
# vLLM operators only
python scripts/generate_kernel_and_verify.py \
--dataset KernelGenBench-vllm \
--server-type openai
# cuBLAS operators only
python scripts/generate_kernel_and_verify.py \
--dataset KernelGenBench-cublas \
--server-type openai
服务器类型#
OpenAI#
python scripts/generate_kernel_and_verify.py \
--server-type openai \
--model-name gpt-4o
Anthropic#
python scripts/generate_kernel_and_verify.py \
--server-type anthropic \
--model-name claude-opus-4-6
高级选项#
启用反思#
启用来自前几轮的反馈:
python scripts/generate_kernel_and_verify.py \
--server-type openai \
--model-name gpt-4o \
--reflection
从检查点恢复#
python scripts/generate_kernel_and_verify.py \
--resume-from output/pass_at_k/previous_run/
调试模式#
仅使用 8 个算子进行测试:
python scripts/generate_kernel_and_verify.py \
--debug \
--server-type openai