示例#
常见的 LLM 赛道使用场景。
快速验证#
测试一切是否正常工作:
python scripts/generate_kernel_and_verify.py \
--op-name aten::add \
--single-test \
--server-type openai \
--model-name gpt-4o \
--max-rounds 1
Pass@1 评估#
评估单次生成:
python scripts/generate_kernel_and_verify.py \
--server-type openai \
--model-name gpt-4o \
--max-rounds 1 \
--temperature 0
Pass@5 评估#
评估 5 选 1 生成:
python scripts/generate_kernel_and_verify.py \
--server-type openai \
--model-name gpt-4o \
--max-rounds 5 \
--temperature 0.8
跨平台测试#
在非 NVIDIA 硬件上:
# Dataset automatically set to KernelGenBench-aten
python scripts/generate_kernel_and_verify.py \
--server-type openai \
--model-name gpt-4o
特定算子族#
测试所有 GEMM 变体:
python scripts/generate_kernel_and_verify.py \
--dataset KernelGenBench-cublas \
--server-type openai \
--model-name gpt-4o
调试与迭代#
从调试模式开始:
# Test 8 operators
python scripts/generate_kernel_and_verify.py \
--debug \
--server-type openai
# If successful, run full benchmark
python scripts/generate_kernel_and_verify.py \
--server-type openai
分析结果#
python scripts/analyze/analyze.py output/pass_at_k/<run_dir>/
预期结果#
基于 KernelGenBench 实验(NVIDIA A100):
方法 |
准确率(210 个算子) |
|---|---|
Pass@1 (Opus-4.6) |
41% |
Pass@5 (Opus-4.6) |
57% |
Pass@1 (GPT-4o) |
~35% |
Pass@5 (GPT-4o) |
~50% |